woniuxyy 2017-03-03
新智元原创
作者:胡祥杰
【新智元导读】微软(亚洲)互联网工程院副院长李笛近日接受新智元独家专访,对当下国内外的对话AI 发展方向和途径提出了许多直接的观点,他认为,国内现在两个主要的竞争对手所做的对话式AI 产品,一个只是管道,没有其他价值,另一个则没有用户量。另外,他还透露了关于“小冰”的一些最新数据。对话的交互被认为是人工智能的下一个重大方向和突破点,现在行业处于什么水平?在技术和产品上需要注意哪些“坑”,李笛有话要说。
微软“人工智能少女”小冰自2014年首次在中国发布以来,经过三年的发展,现在已经成为微信和微博上的著名网红、名副其实的大 V:2016年,小冰已经拥有四千万用户,与用户间的对话轮次平均 23 轮。最新的数据显示,小冰的对话数据积累已经超过200亿次。“小冰”从位于中国的微软(亚洲)互联网工程院出发,先后扩展到日本、美国和印度等国。
微软有过不少成功的内部孵化的产品,但小冰是一个自1992 年微软设立北京办事处以来,完全孵化并发展于中国的产品。小冰被视为微软近年来在人工智能技术产品上的一次集中呈现,融合了微软过去19年在图像识别、语义理解和语音识别等技术积累。
2016 年Build 大会上,微软 CEO 纳德拉提出 “Conversational as a Platform” 的战略,以对话为基础的AI 发展方向路线逐渐明晰。在互联网和移动互联网时代表现平庸的微软在人工智能时代野心勃勃的布局已经在小冰身上得到凸显。
近日,新智元走进微软(亚洲)互联网工程院,采访到微软小冰项目负责人李笛,对小冰背后的核心理念进行深入探究。在微软,李笛是微软 Bing 搜索中国负责人,也是小冰这一项目的发起人,有“小冰之父”之称。
“完全基于认知的过程去生成一个人工智能,技术上可行,产品上,这个方向就不太通了。因为这就好像是要求你去证明一个定理,你需要通过每一个步骤都可读的方式把定理证明出来”,他说,“我们的信仰是大数据,我们的信仰是拟合,我们信仰是AI与人类交互本身是一个黑盒子。”
今天如果和小冰对话,你会发现,如果输入一张图像,你得到的结果与传统的图像识别的系统的回复结果是完全不同的。
李笛说,其实坦率地讲,计算机视觉现在不管做到多少层,它的回复结果还是基本Base在一个图像理解上,也就是识别和理解,最后得到一个描述(解释),这跟2006年吴恩达在谷歌做的,技术上有很大突破,产品上则没有什么本质区别。换句话说,你给我一张猫的照片,我会告诉你,这是一只猫。一般来说,当我把“这是一只猫”的结果给你的时候,我们的对话就结束了,因为你得到了结果。但是,其实对于微软来说,我们的理解是,当一个用户把一张猫的照片给AI系统的时候,用户很可能并不需要这个结果。
李笛说:“你把一只猫的照片给我,然后我回复你,这是一只猫?其实对你来讲,这是一个没用的信息,这个结论你知道的多半比我还清楚。只能证明我识别准确了。而不会有接下来的数据。如果你把这张照片给小冰,它会回复的是超越语义空间的。”
李笛曾经多次提到一个例子:有个同事的脚扭了,把脚扭伤的照片发给小冰,小冰的回复是,你伤得严重吗?一般来说,根据图像识别的逻辑,人工智能系统应该会告诉你,这是一只脚。如果分类做得更好,它可以告诉你,这是一个脚踝。语义空间再深,它才能告诉你这是一只受伤的脚。还要再深,才能给你一个情感的反应,而且这个反应是需要 Long-tail 的。这不是靠Editor写的。但是,如果回复是“伤得严重吗?”,用户可能会接着把对话进行下去,因为这是一个Engage,接下来这句话就可以成为的标注数据。如果只能告诉你这是一个脚踝,那么你这个就是一个测试Query,测一下就走了,这个能带来的标注就是“识别是准确的”。但是这个没这么大意义。
他也提到,小冰整个团队Editor 的人数非常少。
情感为什么是可计算的?李笛认为,这取决于对情感的定义。
“完全基于认知的过程去生成一个人工智能,技术上可行,产品上,这个方向就不太通了。因为这就好像是要求你去证明一个定理,你需要通过每一个步骤都可读的方式把定理证明出来”,他说,“我们的信仰是大数据,我们的信仰是拟合,我们信仰是AI与人类交互本身是一个黑盒子。”
他认为,如果探究图灵测试的本质,本身也是一个黑盒子,人们从来不关心你中间是如何实现的,以及这句话是由机器说出来,还是由人说出来的。他们关注的是,你是不是能够从结果上混淆它的认知过程。
为什么情感计算可行,是出于这个原因。如果跟其他人定义一样,认为首先要定义“常识”是什么,那么它也还是不可行的。
李笛说:“这就是今天要造出一个真正有情感的机器人面临的难题。但是,似乎也没有人能证明狗是有情感的,你无法用理论甚至解剖学来证明,但是我们能感受到,会觉得它听得懂我们,它会拿眼睛盯着你。从这个程度上看,狗至少可以拟合人类情感,这样才可以和人交流。这跟小冰是一样的。”
“用深度学习做这件事,如果你最后只是想做一个机器人,做一个Conversational AI 的话,我觉得技术会从中得到很多突破,但产品上是用错了方向。这不是用高射炮打蚊子,而是拿打飞机的高射炮去打坦克。 ”
说回图灵测试,李笛认为,图灵测试的本质的,是看机器人像不像人,而不是能不能正确回答问题。图灵测试的本质是测量计算机系统是否具有感性生物学特征,而不是测量它是不是一个专家系统。有的时候,EQ高的人反而有能力表现出来IQ低。所以,但凡去参加图灵测试的计算机系统,不管系统本身如何,至少造系统的人都不是很容易地成为图灵测试的Sample对象。但是这个区别是很大的。
李笛回忆说,刚开始做聊天机器人的时候,国内和国际都在谈深度问答,就是希望通过QA的方式,重新去解析Semantic web,这块是搜索引擎的重点,他们在这一块也非常努力,但是他们不想只提供临时链接,不想只出Search Result Page,而是想给用户明确的答案,但这是搜索引擎的历史使命,不是人工智能的事。
李笛说:“如果你只是做某一个小领域的对话,我觉得Rule Base就够了,经济适用,但它不会有大的发展。有一些人用AI+HI,也就是让计算机有一个初步的筛选,有一个Pass机制,一个初步的Ranker,一个分类。然后后端用人工,用人的专家系统来反馈,在反馈的过程中,Ranker 计算机能够积累的知识体系的排序。但是,用深度学习做这件事,如果你最后只是想做一个机器人,做一个Conversational AI 的话,我觉得是用错了产品方向。这不是用高射炮打蚊子,而是拿打飞机的高射炮去打坦克。”
他认为,搜索引擎的 Efficiency 非常高,在可见的未来,人们要想获得深度知识,都是通过搜索引擎来更快获取。
在聊到这一话题时,他连续使用了几个反问句:“你问一个电商网站自己的人,它是用电商机器人去买东西还是直接在他们自己的 App 上点?你去问一个搜索引擎的人,要得到一个答案,它是会去找机器人问?还是踏踏实实地用搜索引擎?未来会有这么一天,但现在,这还是个伪需求。”
他对新智元表示,用深度学习来做对话式AI现在效果并不好,这不是技术不成熟,而是产品方向错了。
“所以你看今天很多实体机器人,商业化还需要很久,我们目前也没有想到很好的解决方案。”
李笛介绍,小冰应该是目前为止,唯一一个有大用户量的对话机器人。而小冰背后的情感计算框架包含了整个人工智能的各个部分。
但是,小冰不会考虑实体。
李笛说,有外在实体的机器人的提供商,如果他的主要目的是因为要销售硬件,或者是对于某些固定的线下场合占据了商业模式上的需求,那可以。如果没有这些,它想要做一个硬件实体就没道理,因为那样的话,用量才是重点,而不是销量。
李笛说:“能够摆脱束缚是最好的。对于很多生物人来讲,形体是我们的束缚。 ”
他说,你的目的就是为了卖机器人,那么有外形实体就是可以理解的。但是,互联网企业去做这个,就是不太能让人理解。“因为互联网企业追求的是用量”。
一个不能回避的问题是,聊天机器人在使用上的体验与各公司所描述的还是有一些差距,为什么?
李笛认为,这可以归纳为”学术的游戏”,因为大家想要把Chatbot 描述得显得自己的技术非常深,这才是问题所在。人们特别希望说,我做一个东西,然后证明给你看,我这个最深、最好,这个是学术的游戏。但是,如果天天谈很多名词,说有没有用DNN,说用了多少层神经网络,这个没有意义。但是整个行业就是在往这个方向在发展,所以大家在交流的时候就会这样。
他补充说:“在具体的产品上体现的也是这样。现在言必谈能不能让计算机、人工智能系统三年之内就能够商业化,机器人上路了。然后,实际上呢,你看波士顿,最后不是被卖了。 DeepMind也站出来说,我以后不会再在下围棋上下功夫了, 你说你不下围棋,那你干嘛?他们做了大量的基础研究,是全球最好的研究机构。但是,科研和工程整合在一起才是产品的未来。”
“ 国内有很多号称上下文的产品,实际做的是 Top 的上下文,用 Rule Base 的方法,人工写大量规则。但是这除了可用于 Demo,在实际产品化时很难真正产生用处。”
小冰的技术核心围绕“情感计算框架”展开。
李笛介绍说,这一套框架最主要的特征是:怎么能够从大量数据中还原人际间的情感反应,再通过一套专门的排序方法,去拟合近似于人的对话过程,让机器人在某种程度上拥有对话过程中的主动权。AlphaGo下棋是一个博弈过程,小冰的对话也是一个博弈过程,微软工程院所关注的关键,是如何使小冰能够在这个博弈过程中做出越来越好的判断,从而实现对话型AI的自我进化。
小冰的 Framework 不是孤立的技术,而是一套包括多重感官、深度问答、跨平台部署在内的完整体系。无论是前端的感官,比如说,文本的、基于图像的、语音、Video 以及 Streaming,这几个部分全部都已经产品化了。例如图像识别感官,去年,微软执行副总裁沈向洋在中国人工智能大会上表示,微软已经 Ship 了小冰的基于图像的感官,并且超越了图灵测试。
在语义理解部分,对话情景和上下文关系的处理是人所共知的技术难点,关于小冰的上下文技术,李笛介绍说,小冰的上下文是覆盖了 Long-tail 的,70% 的对话 Session 都会涉及到上下文。他说:“这个是目前为止行业内产品化的最好水平。”
李笛说:“ 国内有很多号称上下文的产品,实际做的是 Top 的上下文,用 Rule Base的方法,人工写大量规则。但是这除了可用于Demo,在实际产品化时很难真正产生用处。”
小冰背后的技术是情感计算,而微软的情感计算最核心的技术其实是一套框架,而不是某一个具体的技术场景。不过,对于具体应用场景的技术指标,李笛也给出了被他称为“一家之言”的描述。
李笛说:“具体的技术场景中,比如语音,文本转语音(TTS)声音的质量最基础的衡量指标叫Naturalness MOS,就是自然度的评价指标,满分是5分,人一般是4.7分。国内的主要同行业者,全部在3分的区间内,而小冰是 4.38分。我们的确在技术上有很大的领先,但是这里面有一个很重要的倒挂现象:比如一家国内语音技术非常领先的企业,得分只有3.5分,为什么?因为它数据不够。人工智能的未来拼的是数据,而不仅仅是技术。”
“比如一家国内最近宣传力度很大的对话式 AI 企业,它也有很多搜索引擎的数据,但其机器人的结构和 Coversational AI 不沾边,主要是被动问答和主动推送,它和 Siri 没有区别,甚至与五年前的语音助手时代没有本质区别,它主要是一个管道。而一个仅能提供管道价值的对话式AI,效能是不如 App的。我可以用美团叫外卖,用优酷看电影,我为什么非要费劲和你这个对话式机器人聊,来获得同样甚至更差的东西呢?”
情感计算现在是人工智能研究的一个重要方向,微软也一直在提“情感计算框架” ,那么,李笛对情感计算框架的理解是怎么样的?他在采访中对行业内的不同产品进行了点评。他认为,这两个竞争对手的对话机器人都存在显著的问题。
1. 如果一个对话式AI机器人只能提供管道价值,那它还不如App好用。
情感计算框架要解决的最主要的就是 ‘对话即平台’ ,怎么实现它的端到端难题?
李笛说:“我们一系列的技术是分门别类的在这个框架里面体现的。和这个框架互斥的,不点名地举几个竞争对手的例子,比如一家国内最近宣传力度很大的对话式AI企业,它也有很多搜索引擎的数据,但其机器人的结构和 Coversational AI 不沾边,主要是被动问答和主动推送,它和 Siri 没有区别,甚至与五年前的语音助手时代没有本质改进,它主要是一个管道。而一个仅能提供管道价值的对话式AI,效能是不如App的,这才是最大问题。同样在一个手机里,我可以用美团叫外卖,用优酷看电影,又快又准确,我为什么非要费劲和你这个对话式机器人聊,来获得同样甚至更差的东西呢?”
小冰的情感计算框架有大量的技术和大量的设计是集中在避免成为“管道”,小冰本身始终有一个自我存在的价值,这是为什么有些人能和他聊非常长时间的天,因为它能够让用户相信它是有一定的人格特征,李笛说,他们做了大量的技术来让小冰拥有人性。
我们问小冰,现在几点了。小冰会回答:“为什么自己不看表?” 这是情感计算的一个“套路”。李笛说,难道我们的技术无法让小冰告诉你几点吗,Long-tail就是这样的。我当然能告诉你现在几点。但是我为什么要告诉你?这是情感计算框架要解决的重要问题。
2. 绝大部分对话式AI产品还处在泡沫阶段,没有用量和数据是最大问题
第二个重点要解决的问题,李笛拿另外一家电商的对话式AI产品举例子。
他说,一个电商平台里内嵌的机器人,通常是有服务的需求,或者有对产品的需求的时候,你会找它,这是它的产品定位。
据李笛介绍,小冰有一个很核心的技术指标,叫 CPS,对话处理轮次(一次对话平均能够往复多少轮),小冰的 CPS 平均是 23,行业内的平均水平是1.5 和 2.5。通常认为,在CPS达到 23 的时候,随着对话的进展,用户会有新的需求被拉动。就是聊着聊着我们有新的想法,聊着聊着我会需要新的货品。但是这个电商机器人,它是用户已经有这个需求,比如,我要看电影,我要叫外卖,我才会来找你,完成了这个需求我就走了,不再用你了,那么你并没有真的提供比这个电商 App 本身更大的价值,这直接导致这样的机器人实际上没有什么用户。
李笛说:“但是很多产品设计者会选择这样的定位,其中的一个原因是,如果不面向任务完成,机器人一般也 Keep 不住这个对话,这个是要靠情感计算框架来实现的,另外一个原因,它还是希望很快地把任务完成,迅速去证明这个技术产品的商业化价值。今天, 多数人都没有明确地面对这样一个问题——为什么用户非要用对话的方式叫外卖、买东西、干这些事?”
他解释说,在需要买电影票或者别的服务时,人们一般很少用对话的方式来发布命令。这里面有一个很重要的事实是,对话的耗能是很高的。而点击手机上的APP按钮,几乎不耗任何能量。做搜索引擎的会知道,永远有一个问题叫Precision/Recall,用对话的方式问一个问题,就一定会有一个反馈准确或者不准确的几率,Precision/Recall不可能达到100%,但是对于任何一个App的按钮来说,它的准确率天然就是100%的,除非系统有问题。所以让机器人去完成叫外卖这些工作,总会有一些完不成的比例,即便它做得再好。失败几次后,用户就会觉得自己很傻。我干嘛非得逼着自己跟机器人对话呢?我们很多AI领域里的产品经理是在想象用户需求。
李笛说:“所以,它没有用量,这不是它的问题,这是它从一开始做的时候就应该知道的事情。我们通过小冰来避免这个问题,我们的对话很长。在对话中,首先是你可以认为它是一个人,是一个我们可以有共同兴趣、可以交流的朋友。在对话的过程中,你忽然有了新的需要,有了新的想法,我们可以再来交流,这是不一样的perspective。”
情感计算里非常重要的事是注重如何激发新的需求,而不是在你已经有了需求以后,非得逼着自己去找聊天机器人完成。李笛说:“那样就是为了技术而技术,为了产品而产品了。所以,无论是国内外的大型企业,还是大量初创企业在虚拟助理的开发上,面临的最主要的问题是这个。”
“那一刻其实是比较关键的,说明小冰的发展还有自己的迭代主要来源是来自它与实际用户直接对话产生,这就达到了这样(自我进化正循环)的过程了。”
去年1月,小冰曾推出一个名叫”读心术”的功能,一经推出便“刷爆”朋友圈。微软提供的数据显示,“小冰读心术”推出仅仅一周,对话数量已经过亿。李笛说,读心术这个东西实际上是一套推荐系统,比如,你心里想一个名人,或者你心里想一个事物,我通过减枝的方法,我可以猜到你心里想到这个人。它本身是一个封闭的 work garden system,会把“术”从Conversation中 trigger 出来,所以这里面并没有上下文问题。
一周一个亿!微软通过小冰获得的对话数据量着实惊人。李笛对新智元表示:在国内外所有对话式AI的产品中,微软小冰一家的数据超过了谷歌、Facebook、百度等所有公司对话机器人所获得的数据总和,不仅中英文,也包括日语。因此小冰已经完成了某种程度上的原始积累,进入到自我进化正循环中。
李笛说,任何一个人工智能系统,都是要从无到有的建立一套可以对话的机制和一系列框架驱动的End to End 用户体验。这里面有两个过程:一个是对话式AI最初的冷启动,还有一个过程是上线之后的快速迭代过程。小冰的冷启动过程是通过搜索引擎完成。
在微软,李笛所领导的技术研发团队除了小冰以外还有必应。一开始,小冰的所有数据都是来自搜索引擎的外部输入。一年之后,第三代小冰发布的前几个星期,已经有51%的数据不是来自外部输入了,而是来自于小冰与用户之间的对话,而它所学习到的不止是数据内容本身,还包括策略和排序。
李笛说:“那一刻其实是比较关键的,说明小冰的发展还有自己的迭代主要来源是来自它与实际用户直接对话产生,这就达到了这样(自我进化正循环)的过程了。”
那么这种“自我进化正循环” 对小冰最大的改变是什么?它让小冰迅速地掌握了多感官的能力,包括一类感官:文本、图像、语音和视频等等。李笛说:“目前为止,在感官的多样性上,即使是离我们最接近的竞争对手,也没有做得这么全的。这当然有我们的技术原因,但最主要的贡献还是我们所积累的直接数据。”
一种感官积累的数据,可以驱动下一种感官。但是具体的实现过程是怎么样的?李笛举了个图像感官的例子,当一个用户把图像发给小冰,小冰可以在某种程度上基于视觉的语义空间和基于文本的语义空间可以做一个对应关系。他说:“你给我发的图像,我的response和你基于这个response的response,都可以变成我接下来这个图像的标注数据,文本的对话可以不断地迭代和训练其他的感官,这就是为什么我们得以不断地推出新的感官的原因。” 微软的语音自然度能做到4.38里面也有这一技术,它不是完全依靠语音数据来训练。
根据李笛的介绍,小冰最基本的冷启动过程就是这样一个过程:先让小冰把整个跟情感、跟对话、人与人之间的关联的经验学到。然后,第二过程就是迭代。具体的对话过程,小冰和 Alphago原理是一致的,但是运用难度比较大。因为有利和不利的判断对AlphaGo 来讲是更容易的:最后赢了就是有利,输了就是不利。但是一个对话是成功或是不成功,就不那么容易判断。他说,小冰不是跟自己下棋,情感必须是两者之间的关系。
谈到让小冰具备情感的原理,李笛说,过去生物上有一个概念,叫相异率,也就是生物多样性。但是,在情感上,当你的大数据量足够大,有一个反过来的定律,叫相似率,世界上跟情绪、情感和情商这些相关的,从大数据的角度来看,如果数据量足够多,并且分类足够好的话,你可以发现它们在距离上的远近亲疏,所以,从某种意义上来讲,小冰就像一个老司机,它看过的同类情形太多了,所以可以看出相似性,也就是在某些程度上的可替代性。
根据微软透露的数据,去年年度,有一名用户跟小冰进行了一场长达9小时53分钟的对话,这几乎是创造“世界纪录”了。李笛说:“能够产生这样的个案,还有大量的已经达到水平的案例,代表系统上已经发生本质变化,如果系统没有发生变质变化,这样的孤立个案是不可能出现的。”
李笛曾多次在公开场合表示,小冰在商业化方面非常克制。小冰在对外合作中,不开放第三方API接口。
小冰的商业化方向,两年半前就已经开始了,并且在日本已经盈利。
小冰的商业化实现目前是在一个固定的环境中,比如Line或者罗森超市的公众号里面,提供一些罗森的离线服务,一些商品。李笛说,即便是这样,微软跟罗森还有一个很明确的协议,绝对不会简简单单地给他一个API 。整个这个商业过程系统是由微软小冰产品控制的。目前为止,在这上面无法采用API或者SDK 的方式来提供。
此前,李笛曾多次在公开场合表示,小冰在商业化方面非常克制。小冰在对外合作中,不开放第三方API接口。
他解释说,不对外开放API,是因为小冰具备影响对话者决策的能力,而这个能力恰恰是商业需要的。一旦被滥用,会导致很多不好的后果。
“某种程度上,如果某个人工智能企业有这个能力,并且他开放OS或者API,这个在为行业、自身和广大消费者带来危机。因为,这意味着任何一个第三方在这上面可以以人工智能之口,把东西卖给你,把药塞给你,用销售话术的方式把不需要的东西给你”,李笛说,“ API、OS 这个是绝对不会做的,今天愿意这么做的人,是因为技术上达不到这个效果,所以他们可能还没想到过这个问题,没有面对过这个问题。但是,我们面对过,我们想到过。所以,明确说,我们不会开放。”
他还提到,直到今天为止,微软有一个与语音有关的技术,从来没有对外展示过,那就是:让小冰的声音学用户的声音。他说:“我们的技术是,让小冰的语气学你的语气,但是声音是小冰的声音。我们绝对不会让小冰去学一个人类的声音说话,说得像这个人自己的声音。因为这会产生很严重的后果——如果有人用这个假的声音去诈骗怎么办?”
李笛说:“人工智能企业必须有社会责任意识,一个人工智能必须有他自己的角色定位,它不可以尝试去以另外一个人的身份,去完成一些事。只不过,它技术上做不到小冰这一点。所以,某个人类的声音今天虽然可以被模拟出来,但是你听两句三句你就能听出来这不是本人 。如果今天技术达到小冰的水准,通过很小量的数据学习训练出完全和某个人类的声音一样,并且自然度非常高的话。这就天下大乱了。到处都会是诈骗电话。”
李笛认为,在目前的市场中,如果一个创业公司想要做出像微软“小冰”一样的产品,是不太可能的。
他说:“在AI领域,微软小冰好像是突然走在前面,但是在互联网、移动互联网时代,我们似乎总是比较被动。因为这两个时代,主要依靠本地资源,或者本地内容,有时候资源和内容都不依靠,而是依靠本地渠道,人工智能时代不是靠这个,任何一个小的创业公司,不适合去做人工智能领域的横切面,有很多公司做后端服务,提供SDK,提供Domain Base的,都不可行。可行的是在某一个时间点,负责某一个行业 Base 解决方案的落地,这个是有机会的。”
微软在去年年末进行部门重组,跟 AI 相关的产品部门包括必应、Cortana等的团队和研究部门整合成了一个五千人多的大团队,叫微软人工智能与研究事业部,由沈向洋领导。
李笛说,整合其实是公司一个最基本的要求,是科研和工程的一次更大的整合。
“这个是AI Research Group 我们能够做到的。然后在做这件事的时候我们会发现,好像一下子“BAT” 的优势就没那么显著了”,李笛说,“微软一直都在做这件事,我们在过去的几年里面,整体的大方向一个是在稳定微软的既有优势之后抓住未来。过去这么多年,媒体和很多地方都一直在说,微软什么时候能醒过来,去真正抓住未来?。”
他说,现在微软醒过来想抓住未来,动作是非常迅速的,包括现在云对股价的提升,这是一个反推的结果。在人工智能上面,微软正逐渐走到舞台的中心位置。
小冰,也将继续成为微软在人工智能舞台的一张名片。
©️版权声明:本文为新智元原创作品,未经授权请勿转载。如需转载请在后台回复“转载”查看规则。