深圳湾 2018-05-18
当地时间5月8日,美国加州,谷歌I/O开发者大会开幕。谷歌CEO皮查伊和各产品线负责人讲解了AI、谷歌助手等产品的进展。图/视觉中国
作为AI领域第一个现象级硬件产品,智能音箱在过去一年火到发烫,BAT也在一个月内先后入局。而一年过去,爱尝鲜的极客市场已经饱和,市场增长逐渐放缓。
直到5月9日凌晨,谷歌I/O开发者大会上,GoogleAssistant的流畅的人机对话像一阵春风吹过,不少媒体惊呼“谷歌‘造人’了”,关于智能语音的讨论再次占据大众焦点。
紧跟其后,国内智能语音市场迅速复苏,仅仅一周内,就有包括云知声、小鱼在家、三角兽在内的明星创业公司发布共计超过1.8亿美元的融资。
资本再次涌入,巨头夹击下,智能语音创业者该往哪儿走?
不断进化的语音助手
1966年,麻省理工学院的计算机科学家发布了最早也是最著名的聊天机器人程序Eliza,通过分析用户输入计算机的话语,然后将它们匹配以生成可能的脚本的响应列表。随后,聊天机器人制造商不断在Eliza的基础上,打造更多人性化的聊天机器人。
半个世纪过去,语音识别技术经历了由小词汇量、孤立词的识别到大词汇量、非特定人连续语音识别的飞跃。终于,2010年,苹果收购了Siri,并与全球最大的语音识别厂商nuance合作,在2011年推出了搭载人工智能语音交互软件的iPhone4S手机,语音助手从此被公众所关注。
发布之初,Siri支持语言种类少、反应缓慢、语义理解能力差,被公认为智商低、常常答非所问。但随着技术的发展和市场的培育,Siri与电话、地图、提醒、音乐等功能实现连接,不久前Siri还通过拨打电话帮助南京警方成功找到手机失主。
Siri之后,微软Cortana(小娜)、GoogleAssistant、亚马逊的Alexa、国内的百度度秘、科大讯飞的灵犀等一批语音助手涌现。“目前国内的语音助手平台至少有50家。”智能语音交互公司思必驰CMO龙梦竹告诉新京报记者。
技术公司们意识到智能语音互动会成为下一代技术产品最核心的用户入口,但这些语音识别助手及搭载他们的硬件产品似乎并没有戳中用户痛点,直到亚马逊Echo出现。
2014年,亚马逊CEO杰夫·贝索斯玩票似的做出智能音箱产品Echo,甚至都没开产品发布会。但就是这样一款当时在亚马逊内部也不被看好的产品,由于首次搭载了语音助手,可以通过语音交互实现开关电器、定闹钟等功能,背后还有亚马逊庞大的内容资源,面市两周内销量即达100万。达到同样的订单数,iPhone用了70天。
Echo的火爆催熟了语音市场,有媒体报道称,业内人士表示,智能语音助手设备的全球需求将在2018年从3000万台猛增至5000万台。
智能语音背后的黑科技
从初代聊天机器人Eliza开始,通过图灵测试就是这些智能语音类产品的共同目标。近年来,尽管深度学习、神经网络等技术有了显著进步,但依然没有一个机器人能够真正通过图灵测试。
就在谷歌I/O大会首日,谷歌CEO皮查伊展示了GoogleAssistant的新功能——可以打预约电话的“Duplex”,它能够模仿真人的语气,帮助用户完成电话预定理发、用餐等操作。
不久后,谷歌方面随即宣称,Duplex达成了一项里程碑式的成就——通过了图灵测试。
但是,在一些智能语音公司看来,GoogleAssistant只是“部分通过图灵测试”。
“图灵测试最复杂的地方,就在于没有边界。”智能机器人公司Rokid副总裁向文杰解释,在对话意图可以穷举的垂直领域,比如谷歌在此次I/O大会上展示的预定餐位、预约理发等场景,经过积累数据、打磨、优化,做到谷歌展示的准确理解对话意图、做出相应反应并不难。
“在电话预约等命令类语音助手使用场景,即便有上万种说法,但对话的意图是可以穷举的。语义理解在单一领域可以打磨得非常好。”向文杰说,语音助手通过语义理解,识别每句话的意图,即可通过对话管理功能做出得体应答。
但向文杰同时表示,每个行业都有不同特点,把每个领域的各种对话情况都穷举出来,是非常耗费人力的。根据现有的科研进度,没有一个公司可以在短期内做到深入理解所有场景。
在他看来,谷歌这次的展示,最让他惊艳的技术在于语音合成(即TTS,文本到语音),也就是引起舆论狂欢的“像真人一样的语音语调”。
TTS自然度的一个主要测试标准是MOS(MeanOpinionScores),其评分在1-5分,其中5分最好。
“像我这种水平的普通话,得分在4.5左右。国内大部分厂家的TTS可以做到4.0分,也就是人们常说的有‘机械感’的发音,而谷歌这次做到了4.6。”向文杰说。也就是说,GoogleAssistant的发音,已经做到了比正常人更为流畅自然。
这得益于谷歌两年前推出的WaveNet深度神经网络,采用自然生成的方法,以少量的语料辅以强大的计算,生成原始语音,不仅更贴近真人,而且制作时长也从几个月降低到几百小时。
除了语义理解、语音合成外,智能语音交互还包括“语音识别”。向文杰表示,在语音识别方面,国内前几名的互联网巨头、创业公司水平差距都不大,而只有在极端场景下,极高的识别准确率才能创造价值。
创业者还有机会吗?
苹果Siri、微软Cortana(小娜)、GoogleAssistant以及亚马逊Alexa占据全球四大主流语音助手席位,中国市场还有机会吗?
国内市场上的“玩家”大致可按公司体量分为三个梯队:“BATJ”加上科大讯飞、小米是第一梯队;思必驰、云知声、Rokid、出门问问等头部企业处于第二梯队;声智科技、智能一点等更小的初创公司则是第三梯队。
对于巨头们来说,平台战略是他们的一贯打法。
2017年7月5日,百度推出了对话式人工智能系统DuerOS,希望做智能语音领域的“安卓”。基于DuerOS,百度推出了小度智能设备开放平台,为开发者提供包括硬件和软件在内的一揽子解决方案。
就在百度推出DuerOS同一天,阿里也推出其智能音箱产品“天猫精灵X1”。“天猫精灵X1”的背后,是阿里人工智能实验室自主研发的第一代人机交流系统AliGenie。
去年6月,腾讯也推出了基于腾讯云的小微智能服务开放平台。
为抢滩物联网入口,阿里和小米不惜大打价格战。去年双十一,阿里以99元的价格售出超过百万台天猫精灵X1,小米也将补贴进行到底,其售价299元的小爱音箱,一直处于缺货状态。
“当尝鲜成本足够低的时候,用户购买体验的意愿还是非常强的。”向文杰认为,阿里和小米在抢占山头的同时,很大程度上教育了市场。
在巨头环伺的语音市场,创业者如何寻找到自己的破局点?
想要打造智能语音领域的“苹果”的Rokid追求极致的用户体验,涵盖了更简洁的唤醒词、更快的反应时间、更有质感的外观设计以及更广的远场识别距离。
在Google提出wavenet模型后,国内创业公司也在追赶这一语音合成趋势。据了解,今年下半年,Rokid和思必驰即有相应功能投入使用。
同时,在向文杰看来,作为与巨头不存在对抗关系的第三方,Rokid能够获得更多巨头的开放接口。
这也是智能语音玩家思必驰的逻辑。此外,思必驰CMO龙梦竹认为,相比其他创业公司,思必驰在智能音箱、机器人市场占据的市场份额,使得其在洽谈接入资源时更具议价能力。
2014年调整战略方向后,思必驰专注于2B的IOT技术赋能以及智能企业启发式对话交互,目前已与百度地图、高德地图、支付宝、微信、大众点评、携程、喜马拉雅等技术服务商达成合作。
“至于现在才起步的初创企业,只能在更垂直、更细分的领域寻找机会。”龙梦竹补充说。
新京报记者蔡浩爽