邓肯 2017-07-28
下面,我们共同关注史上曾经出现的几个AI失败案例。
Tay——微软的聊天机器人
过去一年中,公认的一大AI失败案例正是微软Tay:
“微软技术研究部与必应团队共同开发的聊天机器人,旨在实验对话交流内容的理解能力。Tay通过轻松愉快的对话与人类用户进行接触。Tay进行过的聊天越多,其智能程度就越高,并可为您带来更具个性化的使用体验。”
Tay属于我们在自然语言理解(简称NLU)领域的一次尝试。其学习算法负责阅读、解释并适应用户提供的书面内容。其目标在于以个性化方式实现人机交互,这也正是众多技术巨头希望实现的关键性战略提升。与电影《她》中的假想类似,微软希望让Tay拥有与人相近的交流能力。在技术领域,商业成功通常经由三种方式实现:收购、参与与转换。可以看到,微软的思路是提供完整的个性化体验,确保其能够通过严格的图灵测试,并重新定义我们的参与途径。
但是,当Tay开始和人类聊天后,不到24小时,她就被“教坏”了,成为一个集反犹太人、性别歧视、种族歧视于一身的“不良少女”。
Alexa错将色情内容提供给儿童
通过相关视频可以看到,儿童用户要求Alexa“玩‘挖金子’”,但Alexa的回应却是“您希望收听色情内容……热辣的小妞与素人美女……”(注:挖金子游戏一词与女性卖春者相同。)虽然有人认为问题不在AI身上,而是语音命令出了问题。这种说法有一定道理,但可以肯定的是,Alexa本身应当拥有通过机器学习区分语境的能力。
Inspirobot提供荒谬的建议
InspiroBot的设计初衷在于提供用户感兴趣的每日格言。然而颇为讽刺的是,其往往无法带来能够让我们的一天充满活力的正能量言论——甚至有可能以黑色幽默的方式令人陷入低落。
为何失败?
答案可以归纳为三个方面——准确度、情景与训练。
准确度
AI技术几乎能够在一切行业当中带来实效。然而与反欺诈或者其它一些目标更为明确的场景相比,Tay的失败主要源自其准确度的缺失。除了语法正确的交互能力之外,聊天机器人需要提供明确定义参数之外的其它回应。由于实际用户所提供的回应同Tay在实验中所接触过的词汇及语法有所区别,因此很难提供一致且准确的交互结果。
情景
对于这里提到的三个AI案例乃至其它各类AI方案,情景认知仍是一大严峻挑战。具体来说,如果大家与Tay聊天、向Alexa咨询意见或者从InspiroBot处寻求激励,那么用户的时间、地点、情感、天气、身份、职位等因素都会影响到您对于所提供结果的解读与评价。
Tay显然未能充分理解会话中的情景,因为它的训练与交互未能考虑到多种多样的情景因素。虽然能够识别词汇并在一定程度上建立一致性响应,但却无法理解在特定背景下的含义与重要度。
同样的,InspiroBot同样遭遇失败。尽管其努力提供丰富且具有通用性的建议,但却缺乏对相关内容的理解、意义的把握以及潜在解释的认知。
训练
大家可能都听说过,“进来的是垃圾,出去的也只能是垃圾”。Tay并非在内部受控环境下进行训练,而是被发布至世界范围,通过与公众交互进行学习。然而在24小时之内,技术精湛的社区(特别是4chan与8chan)明显认为向学习算法提供有问题的内容更加有趣。不用说,他们成功毁掉了Tay这位AI领域的未成年人。
在Alexa方面,情况则有所不同。通过语音命令触发适当响应,并通过训练以了解词汇、语法、音调、语调、节奏、重音以及发音方式的意义。然而,这种将过多因素考虑进来的作法本身令错误边界快速扩大,并最终导致失败。通过进一步训练,Alexa应该能够学会如何识别儿童的声音,并在必要时提示进行家长控制。
另外,InspiroBot则可尝试使用较少的单词、句型模板以及经过验证的积极词汇,从而更轻松地提供真正具有激励效果的表达。然而,这种作法本身与AI设计目标有所冲突——大量参数过滤机制的存在并不利于机器学习的发展。