BigDataDigest 2018-02-22
新智元编译
来源:abigailsee.com;Stanford AI Sloan
作者:Abigail See
编译:闻菲、刘小芹
【新智元导读】二月初,成为Facebook首席科学家、能更多投入研究的LeCun,和深度学习NLP领军人、斯坦福教授Chris Manning做了一次讨论。LeCun主张使用简单而强大的神经架构执行复杂任务,不需要大量针对特定任务的特征工程,而Manning则积极推动将更多的语言结构融入深度学习。双方交锋,有人将其称为AI领域的“蝙蝠侠VS超人对决”。
(文/Abigail See)这个月早些时候,我非常有幸组织了一场Yann LeCun教授和Christopher Manning教授之间的讨论,题目是“我们应该在深度学习系统的体系结构中建立什么固有先验?”(What innate priors should we build into the architecture of deep learning systems?)这个活动是斯坦福AI Salon的一个特别分会 ,斯坦福AI Salon讨论在斯坦福大学人工智能实验室内举行,通常以专家级嘉宾为主。
这次讨论主题——我们在神经架构中做的与结构设计(structural design)有关的决策,以及这些决策如何对应于某些假设和归纳偏见,是当前AI非常重要的一个讨论。事实上,去年我在一篇文章中,将“语言结构的回归”作为2017年NLP深度学习研究的4大趋势之一。
一方面,Manning教授认为我们应该将更多的语言结构(linguistic structure)融入深度学习系统,他是这方面的杰出倡导者。另一方面,LeCun教授则积极提倡,使用简单而强大的神经架构执行复杂任务,不需要大量针对特定任务的特征工程。出于这个原因,两人之间可能会出现很大的分歧,有人在Twitter上评论称,这次讨论是人工智能界的“蝙蝠侠与超人对决”。
然而,LeCun和Manning对彼此观点的认同超出了预期。LeCun最著名的贡献(卷积神经网络)完全是关于先验(innate prior)的,CNN假设图像处理系统应该保持平移不变的,而这是通过权重共享这一结构上的设计选择实现的。对于Manning而言,他曾公开表示,深度学习的复兴对于NLP来说是一件好事 。
虽然两位教授在讨论中在许多其他事情上也达成了共识,但还是出现了一些重要的差异,你可以观看完整视频了解更多。接下来,本文将总结介绍整个讨论中出现的主要内容(译注:原文还给出了进一步了解的链接,可参见原文,地址见文末)。
Manning和LeCun在他们的开场发言中,迅速确立了主要的意见分歧。
Manning将“结构”(structure)称为“必要的善”,认为我们应该对结构持积极的态度,将其纳入神经网络的设计决定中。特别是,结构能够让我们设计一些系统,这些系统与那些没有结构的系统相比,能从更少的数据中获得更多的知识,而且抽象层次更高。
相反,LeCun则将“结构”称为“必要的恶”,并警告说如果认为结构是必要的,那么我们就不得不做出某些假设,而这些假设至少对于数据中的某些部分而言,总是错误的,并且在不久的将来可能会过时。作为例子,LeCun假设ConvNets可能会在10年后过时。
尽管存在分歧,但我们应该注意到,LeCun和Manning至少都同意,结构是“必要的”,他们只是对对这种必要性的态度不同。
Manning认为这种必要性是正确的,而且符合原理。例如,语言在根本上是递归的,所以NLP结构也应如此!不过,他也确实承认,在实践中很难做出正确的结构假设,而这些假设也并不能总是转化为性能上全面收益。例如,递归神经网络,又名树-RNN,强制使用递归组合作为内在先验,这样做有好也有坏。
LeCun对结构的理想化程度要低得多。在讨论过程中,他多次提到各种类型的结构(例如残差连接、卷积),仅仅是让优化见效所需的“元层次基质”(meta-level substrate)。LeCun称,一个没有结构限制的类似的网络也能工作,除了训练需要更长的时间。
LeCun和Manning提到AI研究的历史轨迹。在过去的几十年里,固有先验(innate priors)的理论已经过时,今天的深度学习研究则将有监督的端到端学习(由大数据和大量计算支持)视为主导范式。
LeCun和Manning都一再强调这种范式的局限性——例如在记忆、计划、迁移学习、现实世界知识和多步推理方面仍有待进步,并认为目前的研究积极地通过结构设计决策(structural design decision)解决这些问题。
然而,Manning 更进一步,断言现代深度学习的大数据、大计算的范式事实上已经“颠覆了计算语言学领域”,并且“偏离了轨道”。他认为,如果你能够访问大量的数据,有强大的计算力,你可以通过构建简单但效率低下的系统来获得成功,这些系统在表面层次上执行所谓的“最近邻学习”。这阻碍了研究人员构建良好的学习系统——在较高抽象层次学习表示,并且不需要大量数据。他说,这对整个领域都是不利的。那么解决方案是什么?加入适当的内在结构(innate structure),使系统能够在正确的抽象层次上有效地学习概念。
我不确定LeCun对Manning认为深度学习在某种意义上“歪曲了这一领域”的断言是否认同。不过,LeCun确实也认为,深度学习缺少原理(请参考他的CVPR’15主题演讲:What's Wrong With Deep Learning)。
虽然LeCun和Manning的讨论涉及到当今人工智能技术的许多核心的局限性,但是有个挑战是尤其迫切的问题: 无监督学习,或少监督学习(Less-Supervised Learning)。
两位教授都举了一些例子:人类能够进行few-shot learning;能够通过观察了解世界,不需要任何奖励任务或外部奖励; 并且能够在没有明确监督的情况下学习结构零散的抽象概念(例如物体分类)。
他们认为,这些无监督的学习能力对AI的进步至关重要。但是,当讨论到结构(structure)应该在无监督革命中扮演的角色时, LeCun和Manning出现了分歧。
Manning认为强加上结构是解决无监督学习的关键。他说,如果我们为机器提供适当的结构工具,以让其在适当的抽象水平上学习,那么它们可以在较少的监督下学习。
相反, LeCun认为,如果你可以进行无监督学习,你也不需要强加结构。他举了一个例子:人类的大脑没有任何先天的卷积结构——但它并不需要,因为作为一个有效的无监督学习者,大脑可以学习相同的低级图像特征( 例如定向边缘检测器)来作为ConvNet,即使没有卷积权重共享约束。他总结说,对我们目前的神经架构强加上更多的结构可能是徒劳的,因为一旦我们开发出了更好的无监督学习方法,那些结构设计决策可能就会过时。
这两种角色之间的差异很微妙,也可以说是鸡和鸡蛋的区别。Manning认为结构是实现无监督学习的重要关键,而LeCun将无监督学习视为学习结构的唯一长期方式。
在他们的讨论中,很明显至少有两种类型的“结构”:作为固有先验(例如,ConvNets中的卷积假设,或递归神经网络中的递归假设)加到模型中的结构,以及通过机器动态地学习和计算的结构(例如,通过Capsule网络中的动态路由计算的结构,或由注意力机制计算出的)。两者之间没法简单地区别,Manning和LeCun对ConvNets的层级结构应该属于这两种类型中的哪一种意见不同。
LeCun一再反对固有论,他称之为hard-wired priors,他认为所有结构都应该从环境中学习。虽然Manning 同意很多结构应该从环境中学习,但他也认为我们(AI系统的设计者)应该在提供这种结构方面起一定的作用。虽然我们不应该回到人类设计复杂的系统(如乔姆斯基语法)的时代,但他说,我们应该为机器提供正确的“支架”以令它们更有效地学习。
LeCun和Manning都同意,理想情况下,奖励(reward)应该是内在的(innate)。也就是说,正确地理解世界,本来就应该是智能体的奖励。例如,人类不断构建自己心目中的世界模型,并根据外部观察对其进行修改。
相比之下,今天大多数机器学习系统从外部提供的与特定任务密切相关的奖励中学习。Manning认为,这些目标函数过于肤浅,他指出如果将目标函数定义在如此低的水平,我们将永远无法建立能够学习抽象概念的AI系统。
LeCun认为奖励需要是由内而生的(intrinsic),而且丰富多样,而不是从任务特定的奖励中学习。人工智能系统应该通过不断预测“一切事物”来学习,不需要训练标签或任务定义。
在讨论的最后几分钟,LeCun可能有点挑衅地称,语言“并没有那么复杂”,也不是实现通用智能的关键。为了支持这一论点,LeCun还以猩猩没有语言也几乎像人一样聪明为例。
作为回应,Manning开始捍卫语言。他声称,语言对于通用智能至关重要,因为语言是让个人智能得以共享并转化为社会智慧的载体和渠道!
在英文原文中,作者Abigail See还写了“杂谈”一节,总结了讨论中提到的一些(不是全部)论文、观点和资源,以及与讨论有关的其他内容,并给出链接。
了解更多请参阅原文:
http://www.abigailsee.com/2018/02/21/deep-learning-structure-and-innate-priors.html