anyushan 2018-05-02
数据科学。许多人试图用不同的成功来定义这个口号。
提到这个问题,人们会经历所有与数据科学相关的其他领域,包括业务分析、数据分析、商业智能、高级分析、机器学习以及AI。
关于这个问题,我们认识到数据科学的“绝对定义”需要理解大量的“数据科学”背景,这是一个递归问题。这里的假设是统计学家或程序员理解数据科学比历史学家或语言学家更容易,因为前者已经以另一种形式暴露于数据科学之中。
这使我们认识到,数据科学的“相对定义”可能更有用,这是我们提出的方案。
它是描绘所有上述领域的欧拉图。每种颜色都表示不同的字段(混合颜色表示交叉点),有时间轴和示例可以使用。
由于所有这些信息都是压倒性的,所以我们从头开始。
商业
为了避免将问题简单化,我们将假设“商业”一词不需要定义。商业活动的一些例子是:
·商业案例研究
·定性分析
·初步数据报告(ing)
·报告与视觉效果
·创建仪表板
·销售预测
·业务分析
他们舒适地处于蓝色的长方形中。
数据
这里是实际的欧拉图开始的地方,如果我们在图片中包含数据,我们将有两个大的领域和他们的交集,也有可能是三个部分。
考虑到我们的初始期限选择,我们可以在业务和数据交集中移动最后四个术语,目前表示为图中的紫色区域。这是因为“初步数据报告”,“用视觉报告”,“创建仪表板”和“销售预测”都是数据驱动的业务活动。
他们可能会反对’业务案例研究’和'定性分析',因为这些都在业务范围内,但是基于过去的知识、经验和行为。所有这些都很重要,但你会很快会发现,这不是真正的数据科学。
分析与分析
分析是指将你的问题分解成容易消化的部分,你可以单独研究并检查它们如何相互关联。
另一方面,分析是将逻辑和计算推理应用于分析中获得的组成部分。在这样做的过程中,人们正在寻找模式,并经常探索未来可以对他们做些什么。
因此,我们应该更好地使用业务分析和数据分s析,而不是业务和数据。
时间
在进一步讨论之前,让我们先介绍一个时间表,因为事实证明这对后续的分割至关重要。
我们将应用三个国家 - 过去,现在和未来。
这里将会有一条跨越图表的线,指出任何分析问题的当前时刻。左边的所有内容都指向回顾过去的分析,即过去的分析。在右边的所有内容都会提到预测分析。
我们分析的最后两部分把这张图放到了一个点上。
“销售预测”转向右侧,因为其名称意味着前瞻性的分析流程。概括地说,“定性分析”就是利用你的直觉和经验来规划你的下一步行动,这也可以说是展望未来的另一个术语。
数据科学
对于大多数读者来说,这是文章的巅峰之作。数据科学是一个离不开数据的领域。因此,它完全属于数据分析的领域。
它与商业分析的关系如何?
事实证明,数据分析和商业分析同时也属于数据科学的范畴。
有一点需要注意。存在的数据科学过程不是直接且立即进行业务分析,还有数据分析。例如,“钻井作业优化”需要数据科学的工具和技术。数据科学家可能每天都需要这样做。但是,在“石油业务”领域,我们不能说它与业务分析直接相关。
为了更好地说明这些问题,“数字信号处理”是数据分析部分活动的一个例子,但不是数据科学,也不是业务分析。数据、编程和数学发挥作用,但与我们在数据科学中使用它们的方式不同。
为了保持一致性,让我们结束时间轴来完成这个工作,数据科学既在线路的左侧也在线路的右侧(与其他线路一样)。
这给我们带来了一个问题:是否存在一个只面向过去的领域?
商业智能
商业智能(BI)是分析和报告历史数据的过程。
回归、分类和所有其他典型的预测方法是数据科学的一部分,但不是BI。这就是画线的地方。
此外,商业智能完全是数据科学的一个子集。因此,当处理描述性统计、报告或过去事件的可视化时,同时也在做BI和数据科学的工作。
机器学习和AI
这里的定义将会有些模糊,因为解释ML和AI会失去本文的重点部分。此外,在机器学习方面有很多资源,特别是在KDnuggets上。
人工智能(AI)是由机器显示的任何形式的智能,其类似于自然(人类)智能,例如计划、学习、解决问题等。
机器学习(ML)是机器预测结果的能力,不需要明确的编程。
ML是AI的一种方法,然而,两者往往混淆在一起,因为ML实际上是我们人类迄今为止发展起来的唯一可行的AI途径。因此,当我们谈论公司正在使用的AI的真实应用时,我们实际上是指ML。
在我们的图中,两个术语符合以下方式。
机器学习完全属于数据分析,因为我们基本上无法在没有数据的情况下执行。它也与数据科学重叠,因为它是数据科学家工具库中最好的工具之一。最后,它也参与了BI,不涉及预测分析。
数据科学的客户保留、欺诈预防和创建实时仪表板的实例也是BI的一部分。突出的例子包括“语音识别”和“图像识别”。两者都可以被认为是数据科学的内部或外部,这就是我们将它们放在边界上的原因。
为了消除所有关系,ML完全在AI内部,但AI本身具有与业务和数据分析无关的子域!我们选择的一个例子是“符号推理”。
高级分析
我们分析的最后一个领域是高级分析。这不是数据科学术语,而是市场营销。它被用来描述'不那么容易处理'的分析。主观上,对于初学者来说,本图中的所有内容都是先进的。虽然不是最好的术语,但汇总我们在整篇文章中使用的所有这些“正确”术语是非常有用的。
删除AI并添加高级分析,这就是我们得到的。
在本文的术语中,我们对高级分析的分析已经完成。
这里是比较这些定义的动画gif。