了解人工智能之分类和预测-数据科学中的预测,分类和回归分析

zhennang 2017-08-22

在上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习。也概述了当前人工智能背后的基本原理,提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例。那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向。

总的来说,我们可以从两个方面来利用当前的人工智能系统:

完成更出色的数据科学工作

我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作。但是在有了机器学习系统以后,我们可以做得更好出色:

  • 预测:根据过去的数据预测未来的情况,如天气预报或股市分析。

  • 分类:区分照片中的是一匹斑马还是一匹普通的马; 文章的叙述是正面性的还是负面性。

  • 回归分析:分析照片中人物的年龄; 汽车预期的燃油效率等等。

实现真正的人工智能

机器学习系统还可以完成那些早期计算机系统不能胜任的工作,从这点来看它们也更接近真正的非人类智能:

  • 创造性工作:在学习了大量样本之后创造出新的事物。

  • 持续学习:通过不断地试错,学习完成一些复杂的任务。比如,玩游戏。

随着人工智能慢慢从小说情节变成现实生活,上面第一个方面的能力让人感觉更触手可及,而第二个方面则还像是科幻小说中的情节。 这里我主要讨论关于数据科学的内容,这个系列的第三篇我会围绕创造性工作和持续学习来展开。

预测未来

从历史数据推广到未来的情况,我们也称之为预测。任何大型的组织或机构都离不开这方面的工作:例如“鉴于去年的情况,明年我们的业绩会怎样?”。通常来说简单的预测模型可能只涉及几个因素。比如,通过历史上同一时间的某地气温来推测现在的温度。而更复杂的模型则会涉及更多的参数,有时甚至会超出人类的计算能力。

我们可以用统计学,机器学习和神经网络这三种不同的方法来处理不同的问题:

  • 如果我们要解决类似根据历史数据预测产品的最佳价格这类的常规业务问题,那就可以遵循传统的财务或统计模型。

  • 如果我们手头有很多参考因素,但又不知道如何把它们运用于预测工作,那么就可以参考机器学习的解决方案,从而找到最适合的模型。 这种问题往往属于数据科学的范畴,可以通过复杂的电子表格和编程语言(如R)来解决。

  • 如果我们需要通过一些不太容易理解的数据集进行预测,而这些数据集恰恰又不易转换为简单数值的话,那么神经网络可能会有它的用武之地。

神经网络能够实现与传统统计学方法相同的数学模型。我写了一个可以粗略预测气温的演示示例。神经网络可以被看成一个黑盒,从而让反向工程变得相当困难。相反,使用Excel电子表格的话,其中的模型完全是透明的。两者孰优孰劣就要看实际的应用场景了。

结论:大多数组织机构并不需要人工智能完成日常财务状况的预测工作,这样的预测结果也不容易被验证或审计。但在许多其他领域,机器学习的方法还是值得一试的。

分类和识别

40年前,人工智能已经被用来对美国邮政的信件进行分类了。自动手写识别系统通过给定一个字母形式从而选择它所代表的字母。通过光学字符识别系统,人们明确地告诉机器线条组合映与字符的映射关系。这在当时属于人工智能的一个例子,但它却不是“机器学习”。相比之下,当前的神经网络可以在没有人类明确指导的情况下,“自己”学习完成某项任务。

深度学习之所以备受瞩目,是因为你可以将任何分类问题交给它来解决(只要你有足够多的样本来让其进行学习)。在机器学习出现之前,人工智能系统仅限于人类可以枚举的所有特征,例如识别由有限的一组字母,数字和标点符号组成的邮政地址。随着问题复杂度的增加,人类“导师”本身则成了系统的瓶颈。而机器学习让我们摆脱了这个困境。

识别图像

经过训练的深度学习系统可以非常快速地进行分类任务。自动驾驶汽车使用摄像机和其他传感器来识别重要的现实世界对象,比如树木,公共汽车和交通信号灯等。不过,它们还有许多地方需要改进,而这也是自动驾驶汽车还没真正驶上马路的原因之一。 机器学习系统仍然在视觉识别任务方面还有许多难题需要解决,例如如何在任何照明条件下来准确识别物体,这方面人的眼睛可以相对轻松地到达目标。 相反的,如果分类任务要求人类受过非常专业的训练,比如识别肿瘤,深度学习系统可能会做得更出色。毕竟神经网络系统能在较短的时间内完成大量的样本学习,而这对于人类则是不太可能的。

识别语言

除了识别字母之外,机器学习系统还可以在语义层面执行语言分类任务。通过查看许多标记过的句子,他们可以被训练用来回答问题,“这两个句子是否意味着相同的事情?”,“这家餐厅是正面还是负面?

自然语言系统可以有效的对人类语言进行分析。 由于社交媒体的出现,一场文字的海啸正在向我们袭来。也许再好的自然语言系统也比不上人类的语言能力,但是它却能够处理完任意一个社交媒体上所有的文字信息。

总结:深度学习方法特别适用于对复杂的,原始的数据进行分类。如果经过适当的训练,神经网络可以在图像中发现微妙的模式,这在医学诊断中具有深远的影响。机器学习也可以应用于理解人类语言,但目前人们还只能把它当成自然语言研究的辅助工具。

回归分析

有时我们的分类问题有可能不是非此即彼的明确判断(“正或负”,“是猫还是狗”)。就好比我们在预测天气时,不仅有确切的温度值预测,同样还可能有“晴天”或“多云”的分类判断。这类问题我们就称为回归分析。

和基于时间的预测一样,在回归分析领域,我们已经有了很多现成的算法与技术。大多数情况下,我们并不需要在这个已经很成熟的学科领域使用机器学习系统。我们可以利用神经网络探索那些新的问题领域。

我认为基于神经网络的预测已经不仅仅能处理纯数字数据了。与之前提到的分类问题一样,深层神经网络可以根据各种人类行为数据进行真实价值的预测,比如基于财务报表分析股票波动。

为了验证我的想法,我用了四万幅名画训练了一个深度学习网络,然后要求它推测出作品的创作年份。平均来说,它推测出的成画年代与真实年代有65年左右的误差。显然人类专家做出的判断会更准确,但比起普通人来说这已经是一个不错的成绩了。

了解人工智能之分类和预测-数据科学中的预测,分类和回归分析

左边是真实年代,右边是推测的年代。这里有完整的代码,同时这个是项目的笔记,包括了图表和更多的训练样本。

总结:根据在训练中提取出的特征,神经网络可以比传统的统计模型更好地进行回归分析,特别是对那些数据间的相关性并不容易被发现的场景,神经网络便能发挥它的优势。

从科学到小说

随着互联网的发展,我们面临着数据的大爆。海量的文本,视频,音频数据需要进行处理,而这已经远远超出其他技术的能力,不过幸好现在我们有了机器学习这个强大的工具。深层神经网络的作用不仅仅于此,它还有着创造能力,并”学会“与人类在现实世界中进行互动。请参阅这个系列的第三篇:

本文由北邮@爱可可-爱生活老师推荐,@阿里云云栖社区组织翻译。

文章原标题《AI Literacy: How artificial intelligence classifies and predicts our world - Part 2: Better data science with prediction, classification, and regression》

作者:Liza Daly 软件工程师,担任过Safari 公司的CTO。涉及的领域包括机器学习,数码艺术和电子读物出版等。

译者:friday_012 审阅:

相关推荐