图灵测试寿终正寝，我们该如何评测人工智能？

选自Scientific American

作者：Gary Marcus

机器之心编译

参与：李泽南、黄小天、曹瑞

摘要

在人们心中，艾伦·图灵的「模仿游戏」（一台机器作为被测试者试图说服一名人类测试者自己是人而不是机器）长久以来被认为是人工智能的终极测试。
图灵测试虽没有完全过时，但目前通过测试的 AI 借助的多是欺骗而不是真正的智能。人工智能专家宣称，是时候用一系列方法取代图灵测试了，这些方法可以全方位评估人工智能。
真正的智能机器应能够理解含糊不清的表述，把零件拼装成家具，通过人类四年级的科学考试，甚至更多。这些任务对于机器的困难程度充分证明：抛开炒作不谈，人类水准的人工智能依然遥不可及。

1950 年，艾伦·图灵发明了一个迄今为止仍被称为人工智能终极测试的思想实验，它被称为「模仿游戏」，也就是后来广为人知的图灵测试。通过假定存在一个可以把自己伪装成人类的计算机程序，我们现在称之为聊天机器人（chat bot），图灵设想了一个测试：机器施展自己的能力试图说服一个人类测试者自己是人类，它需要回答有关诗歌的问题，甚至故意在计算问题上出错。今天，在大众眼中，图灵测试常被看作一种界限，一种测量机器智能是否真正到来的手段。但它不应该如此：界限可以被通过——有时出于错误的原因。虽然短期内看，机器有可能骗过人类，但这种胜利很快会化为泡影，它们不太可能引出真正的人工智能。

问题在于图灵测试太容易作弊，通过欺骗或假装无知便可以轻松通过测试。正如图灵本人所预测的，获胜的主要诀窍是避而不答。如果一个裁判问一个机器，你有感觉吗？机器必须撒谎才能赢。但是这种奇怪的扭曲不是特例，而是常态。通过图灵测试的方法不是别的就是欺骗。

在 2014 年，一个名叫 Eugene Goostman 的聊天机器人通过伪装成一名来自乌克兰奥德萨 13 岁男孩号称通过了图灵测试，在测试中这个男孩从不正面回答问题。一些测试者被成功欺骗了（大约有三分之一，足以算作一次小规模胜利）。但是这又如何？裁判们只有几分钟时间进行测试，如果时间加长，毫无疑问他们会很快发现真相，Eugene 对现实世界几乎一无所知。让我们来看一下计算机科学家 Scott Aaronson 与 Eugene 的对话：

SCOTT：鞋盒子与珠穆朗玛峰，那个更大？

>> EUGENE：现在我还不确定，我得再想想。对了，我忘记问你来自哪儿了？

SCOTT：一只骆驼有几只腿？

>> EUGENE：2 至 4 条吧，也许，3 条？顺便说一句，我仍然不知道你的专业是什么——或者，我刚才没看到？

SCOTT：一只千足虫有多少条腿？

>> EUGENE：只有 2 条。但考虑到切尔诺贝利事故，它有可能增加到 5 条。我知道你在对我说脑筋急转弯。

SCOTT：没有，我需要知道你不是一个聊天机器人。请直接回答这个问题：一只蚂蚁有几只腿？

>> EUGENE：2 至 4 条吧，也许，3 条？哦，这是一次多么富有成果的对话。

很明显，原始图灵测试经不住时间的考验。

媒体报道了这个 13 岁男孩不久后，我提议了一个替代性测试，旨在推进真正的人工智能，杜绝回避话题的情况。在一篇纽约客的文章中，我提出废弃之前的图灵测试，支持更好理解力的挑战——21 世纪的图灵测试。

正如当时我表述的，我们的目标是打造一个计算机程序，可以观看任何电视节目或者 YouTube 视频，并回答关于内容的问题——为什么俄罗斯占领了克里米亚？或者老白为什么要打击小粉？这个想法旨在消除欺骗，专注于评测机器是否可以理解接触到的信息内容。会说俏皮话的机器或许并不能将人类引向真正的人工智能，我们需要开发出能够理解事物更深层次的程序。

当时的国际人工智能联合大会主席 Francesca Rossi 阅读了我的提议，并建议通过共同努力让新版图灵测试成为现实。我与 Francesca Rossi 以及 Manuela Veloso——卡内基梅隆大学机器人学家与人工智能进步协会前主席，我们三个人开始集思广益。最初我们专注于寻找可以取代图灵测试的单一测试。但很快我们有了多重测试的想法，因为没有足够完美的单一测试，看起来不存在「一个」人工智能最终测试。

我们也决定让整个人工智能社区加入进来。2015 年 1 月，在德州奥斯丁，我们聚集了大约 50 位优秀研究者共同讨论图灵测试的更新。在一整天的演讲与讨论中，我们把多个竞争性方法融合进了一个理念。

其中一个事件——Winograd 模式挑战的命名来自人工智能先驱 Terry Winograd（谷歌创始人拉里·佩奇和谢尔盖·布林的导师）。该事件使机器人参与一项有关语言理解与常识交叉的测试。任何一个曾经编程机器并帮助其理解语言的人都明白自然语言里每一个句子都是充满歧义的，经常可作多种解释。我们的大脑如此擅长理解语言以至于对此熟视无睹。拿「The large ball crashed right through the table because it was made of Styrofoam.」这个句子为例。严格来说，这个句子有歧义：词「it」可以指 the table，也可以指 the ball。人听到这句话一定认为「it」指的是 the table。这需要把材料科学的知识与语言理解结合起来。但这对机器而言遥不可及。三位专家，Hector Levesque、Ernest Davis 和 Leora Morgenstern，已经联合开发了一个类似的测试，语音识别公司 Nuance 许诺向第一个通过该测试的系统提供 25000 美元的现金奖励。

我们还希望新的图灵测试中包含更多其他项目。一个测试机器理解图像、视频、音频和文本理解能力的挑战是必要的。Nuance 公司的人工智能和自然语言处理实验室主任 Charles Ortiz, Jr. 提出了一个建构挑战以测试感知与物理动作，这两个智能行为包含的重要元素是原初的图灵测试所完全缺失的。此外，Allen 人工智能研究所的 Peter Clark 提议用与人类学生相同标准的科学考试和其他学科测试考验机器。

除了测试的内容，参会者还讨论了如何让测试结果变得更具说服力。例如，Guruduth Banavar 和他在 IBM 的同事强调，测试内容应该是计算机生成的。哈佛大学的 Stuart Shieber 强调了透明度：如果事件推动了该领域的发展，奖励应该只发给开源、可复制并且整个人工智能社区可以获得的系统。

机器何时才能应对我们设定的这些挑战？没人知道。但我们的努力证明人类已经在认真研究此事了，这也许很有意义。一个能够应对建构挑战的机器人可以为流离失所的人在地球或遥远星球上搭建临时营地。一个可以完成 Winograd 挑战并通过四年级生物学考试的机器可以让我们更接近使用机器整合大量关于人类医学的文献的梦想，这可能是迈向治愈癌症或破译大脑的关键的第一步。人工智能和所有其他领域一样，需要明确的目标。图灵测试曾是一个很好的开始，但现在是建设新一代挑战的时候了。

新图灵测试

人工智能研究者们正在开发各种各样的测试用以取代艾伦·图灵 67 年之久的「模仿游戏」。下文中就是对四种不同方法的介绍。

测试 01：威诺格拉德模式挑战（Winograd Schema Challenge）

这种测试是以人工智能研究先驱 Terry Winograd 的名字命名，「Winograd 模式」是一种简单，但措辞含糊的自然语言问题。要想正确解答这个问题需要被测试者具备足够的「常识」，理解在现实世界当中人工智能、事物和文化规范是如何互相影响的。

Winograd 在 1971 年提出的第一个模式，设置一个场景（市议员拒绝提供示威许可，因为他们害怕出现暴力），然后关于这一场景提出一个简单的问题（谁害怕暴力？）这就是代词消歧问题（PDP）：在这种情况下，对于「他们」一词的指代问题存在着歧义。但是 Winograd 模式的设置比大多数 PDP 问题的设置都要巧妙，因为只要简单改变一个单词，整句话的意思就会完全相反。（例如：市议员拒绝给示威者许可，因为他们提倡暴力。）大多数人类都会利用他们对市议员和示威者之间关系的「常识」或者「对世界的认知」，来解决这个问题。这个挑战利用了一种初步的 PDP 来淘汰那些不太智能的系统，晋级者会继续进行真正的 Winograd 模式挑战。

优点：因为 Winograd 模式所依靠的知识，计算机是没有可以信赖的渠道接触的，谷歌上有很多有力的证据证明，这一挑战在有互联网搜索条件的情况下仍然难以进行。

缺点：可用的模式资源相对较少。纽约大学计算机科学方面的教授 Ernest Davis 说，「提出这些模式可不是件容易事儿。」

难度：高。在 2016 年，有 4 个系统比赛回答一套 60 个 Winograd 模式问题的测试。胜出系统的准确率只达到了 58%，而这距离研究者设定的 90% 的门槛还差得很远。

为何适用：辨别理解和单纯的模拟。Leidos 的研究者 Leora Morgenstern 曾和 Davis 一起研究过 Winograd 模式挑战，他说，「苹果的数字助理」Siri 也不能理解代词，也不能消除歧义。也就是说「你不能真正的和一个系统展开一段对话，因为你总是在提到对话中之前出现过的东西。」

图灵测试寿终正寝，我们该如何评测人工智能？

测试 02：人类的标准化测试

人工智能将接受人类学生在小学、中学阶段面临的考试，不给任何宽限。这一方法是将语义理解和解决各类问题的任务联系在一起的绝妙方式。这很像是图灵测试，但前者更加简单直接。只需让人工智能接受严格的标准化测试（如纽约市四年级科学考试的多选题），为机器配备足够的输入能力（如自然语言理解和机器视觉模块）然后开始考试吧。

优点：多样化且务实。和 Winograd 模式不同，标准测试相对简单易行。而且因为没有任何一种人类考试是为机器准备的，所以考题非常丰富，而有关常识的问题需要进行阅读理解，有可能不存在独一无二的答案。

缺点：不像谷歌背书的 Winograd 模式，这种测试面向人类，而且通过标准化考试并不一定意味着机器具有了「真正的」智能。

难度：中等。此前，由 Allen 人工智能研究所设计的 Aristo 系统在接受未遇到过的四年级科学考试时可以获得平均 75％的分数。但那些试卷上都是没有图片的多项选择题。「目前还没有哪个系统能通过完整的四年级科学考试，」Allen 研究所的科学家在 AI Magazine 中写道。

为何适用：解决现实世界的问题。「我们可以看到，目前还没有哪个系统能够在 8 年级的科学考试中取得及格的成绩，但同时，我们又能看到 IBM Watson 帮助医学院的研究人员攻克癌症的新闻，」Allen 人工智能研究所的首席执行官 Oren Etzioni 说道。「IBM 可能有了惊人的技术突破，也可能他们只是在某个方面稍稍领先。」

图灵测试寿终正寝，我们该如何评测人工智能？

测试 03：物理图灵测试

大多数机器智能的测试方式集中在认知方面。而这个测试更像是实践课：人工智能必须以有意义的方式在现实世界完成任务。这一测试分为两个方向。在构建方向，一个具有实体的人工智能——机器人必须学会阅读使用说明，将一堆部件组装成实体（就像从宜家买回家具自己拼装一样）；而探索方向则是一个开放的问题，需要人工智能发挥自己的创造力，使用手头的积木来完成指定的任务（例如「建一堵墙」、「盖一个房子」、「为房子加盖一个车库」）。这两个方向都要求被测试的机器理解任务内容，找到解决方法。这种测试可以面向单独的机器人，也可以面向机器人群组，甚至人类和机器人共存的小组。

优点：这一测试模拟现实世界中智能生物需要解决的问题——特别是在感知和行动方面，这是以往人工智能测试方法所或缺的。另外，这种测试很难作弊：「我不知道它存在什么技巧，除非有些人能够找到办法让人工智能在网上搜索出已经存在的类似建筑物。」Nuance 的 Charles Ortiz 说道。

缺点：繁琐、乏味且难以自动进行，除非机器可以在虚拟现实场景中进行测试。而且即使这样可行，「机器人学家也会说（虚拟现实场景）只是近似的环境，」Ortiz 说道。「在现实世界里，如果你拿起一个组件，它可能会滑落，这或许是一个易于解决的问题。但在 VR 世界中很多条件都可能存在细微的差别。」

难度：科幻级。一个具有实体的人工智能可以自然地操纵物体，并能连贯地解释自己的行为——这不就是《星球大战》里的机器人吗。「让机器人能像儿童一样掌握这种能力是一个巨大的挑战。」Ortiz 说道。

为何适用：想象一下通往人工智能的道路，有四个问题需要解决——感知、行动、认知和语言，而现在的研究计划往往只专注其一。

图灵测试寿终正寝，我们该如何评测人工智能？

测试 04：I-Athlon

在一次部分或完全自动测试中，让人工智能总结音频文件中的内容，叙述视频中发生的情节，即时翻译自然语言同时执行其他任务。这是为了构建一个客观的智能分数。其中，没有人监督的自动化测试是这一方法的重点。将人类从评估机器智能的过程中剔除是一个有点讽刺的事，但 IBM 的人工智能研究者 Murray Campbell（前「深蓝」开发成员）表示：对于人工智能的测试必须保证有效且可复现。建立一个算法来生成 AI 的智能分数也可以让研究者们不用再依赖于「肯定存在认知偏差」的人类智能，它可以像标尺一样具有统一的刻度。

优点：至少理论上客观公正。一旦 I-Athlon 进行了测试并给出了评分，计算机会得到相应的评分和加权对比。它的判断就像审查奥运会比赛冲线照片一样公正。这种测试的多样性也符合 IBM 研究者称之为「广义智能系统」的标准。

缺点：潜在的不可预见性。I-Athlon 算法可能会给人类研究者无法完全理解的人工智能系统打个高分。「如果一个人工智能系统（对人类而言）非常难以解释，这种事情很有可能发生，」Campbell 解释道。事实上，这一有关打分的黑箱问题在卷积神经网络中已经在困扰着研究者了。

难度：未知。目前的系统在一些潜在的 I-Athlon 任务上表现的不错，如图像识别和语言翻译方面。在另一些任务中，如对视频内容进行解说或对图标进行讲解方面，人工智能仍然远远不能胜任。

为何适用：这种方式可以减少人类认知偏见对测量机器智能和量化工作的影响，而不是简单地测试性能。

图灵测试寿终正寝，我们该如何评测人工智能？

图灵测试寿终正寝，我们该如何评测人工智能？

相关推荐