科技新发现 2016-10-23
文章来源:微信公众号“徐磊的星空”(ID:our-starry-sky)
因为老罗的一场发布会,讯飞输入法一下占据了朋友圈接近一周。根据ASO100.COM的数据显示,讯飞输入法APP在AppStore的排名也快速上蹿。当然随之起来的,还有科大讯飞股票。
语音输入法一夜之间的爆红,为什么?
答案可能又出乎大家意料了。
这次的红,正凸显了语音识别技术/产品目前的尴尬地位。
语音识别技术,包括背后的语义识别技术,其实在过去十几年已经有了长足进步。
在语音识别层面,各种语音,包括中文方言的识别率基本已经达到应用要求。曾经微软的一次发布会上,不仅实现了实时语音识别,还加上了实时翻译(背后包含了语义识别)。
之所以,这次老罗一场发布会引起这么大反响,究其原因正是,语音技术虽然已经基本完善,但是没用主流应用场景,所以很难形成用户使用习惯,用户对相关产品了解很少,只能靠事件来唤醒用户的关注度。这是产品和技术最尴尬的地方。
客观来讲,语音识别的应用场景还是不少的,比如车载应用已经提了很多年。现在也有一些call center在用语音识别来降低人工投入。
但问题真的不在技术的成熟度够不够。
为了验证我的这个观点,我下载了讯飞输入法,并对比了微信的语音输入。
实验结果是,一般叙述性语句,普通话的识别正确率都几乎没有错误。但在地名、人名的识别方面,还是一如既往没有解。这是中国文字数量太大,组合太多的天然弊病。
微信的语音输入其实已经是一个非常刚性的需求。直接发语音被很多人视为不礼貌,对于接受方来说效率低下。
按理通过语音输入直接转化成文字再发,是合理的应用场景。但使用率目前观察的情况来看还是非常低的。
其中一个原因就是人名地名的无解,因为哪怕只有一个字的错误,也需要再去唤起其他输入法来修订。这个麻烦阻挡了很多人继续使用语音输入法。讯飞输入法的iOS版本因为受到苹果的限制,交互体验其实还要更差一点。
退一步说,即使是英语这类拉丁语系,他们的识别率其实可以比中文更高,却也没见广泛应用。
这里还有一个很重要的因素是,除了驾驶场合,其他很多场景下,键盘输入比语音输入对周边环境的干扰小得多得多。所以大多数人还是选择了键盘输入。
简而言之,语音识别目前还是没有一个杀手级的应用。反而是微软展示的实时翻译需求也许更普遍。可惜背后语义识别的技术成熟度还远远不如语音识别成熟。
类似语音识别技术的尴尬状态其实并不少见,当初的指纹识别技术,如果没有智能手机解锁这个应用场景,恐怕也还只是部分好奇份子的玩具,以及军政应用和金融要地的安全工具。今天的虹膜识别、人脸识别差不多有类似的应用场景问题。更适合在特定环境下去突破。
生物识别技术的最终大爆发还要等待AI的成熟。当人机交互最终脱离键盘鼠标,当我们面对人形机器人时,语音、语义、人脸、虹膜,所有这些技术都将最终像今天的指纹识别技术一样成为无处不在的基础构件。
技术的发展就是这么孤单和漫长。我们应该不断支持基础技术的投入和发展。而在应用层面,我们需要保持清醒的头脑,别让一阵风吹晕了方向。