语音输入四强争霸 搜狗语音输入后来居上

lanyun0 2014-11-13

随着智能手机的不断推广,越来越多的新输入技术正在得到长足的发展,而作为最重要的人机接口之一,语音识别技术在近年来发展迅速,相关应用也日趋广泛。评论认为,在不远的未来,智能语音接口将有可能促使各种穿戴设备进一步发展成为可携带的“服务提供者”和“生活伙伴”。在这样的趋势下,语音输入法市场发展迅猛,仅国内就有多家公司推出了具有中文语音输入功能的产品,其中讯飞、搜狗、百度、微信四家公司的语音产品具有自主研发的识别技术,在互联网业界产生的影响也较大。近期,北京邮电大学、重庆邮电大学针对上述几家公司所开发的语音输入产品做出了评测报告,展开了一场“四强争霸赛”。两所大学的测评参与人员均有200人之多,每名测试者所使用的测评文本总数也达200条,并以细致的分类覆盖到语音输入的各种应用场景,使得这场比拼无论从专业性或是客观程度上,都十分值得业界参考。

识别率之战,后来者居上

近十年来,对字、句的识别准确率一直都是语音输入技术研发的主攻方向。这并没有看上去那么简单,输入法不仅要适应不同个体迥异的声音特征,更要克服外界环境中背景噪音所带来的各种干扰。如果准确率不足,使用者将被迫对同一输入信息进行重复识别,或者切换键盘输入,大大影响语音输入应用的使用体验。有鉴于此,参与此次评测的两所大学对输入法准确率的评估设计可谓细致入微:测试人的性别、地域,不同的环境干扰,均被考虑在内。

语音输入四强争霸 搜狗语音输入后来居上

数据显示搜狗在语音输入的各种场景下表现稳定突出(数值越低越稳定)

从测试的结果来看,4款被测的主流语音输入法在字识别率上均能超过90%,而在整句准确率方面则仍有14~24%不等的误差。这其中,搜狗语音输入法在各项测评中的表现优异,各项测评中差错率均控制在14%~16%之间,比肩、甚至超过讯飞输入法,而百度、微信语音输入的性能较之前者则还存在着一定的差距。值得一提的是,语音识别界早就形成的一大共识是:只有识别技术的整句准确率达到83%以上,产品才能真正具备有实际价值的可用性。

在四款被测产品中,讯飞以语音合成起家;百度从2010年其就开始了语音识别研究;微信依托腾讯研究院,语音技术研发其始于2011年;而搜狗2012年初才开始涉猎语音识别。因此,评测显示完成自主研发时间最短的搜狗,其产品性能却优于同类,不能不说是令人意外。

“深度学习”或成点金手

语音输入不仅需要支持自身产品,还要做到为其他垂直领域(如地图,搜索和购物等)提供服务输出,这就要求识别技术具有全面、稳定的性能,除了能够高效地处理长句,也要准确地识别单词输入。从测评结果可以看出,与在整句识别中的高光表现相对的是,讯飞输入在短词识别中性能明显下降。就全面性而言,搜狗则是本次测评中唯一兼具稳定性和高性能的产品。

测评参与人员的分析认为,能够取得这样的成绩,离不开搜狗语音输入所应用的“深度神经网络”(或称“深度学习”)技术。这一技术最先由微软引入语音识别领域,是最为前沿的识别技术之一。微软技术报告显示,深度神经网络能够在各种不同的模式识别场景下提供极佳的准确率,但也指出该技术在实际应用中仍相当具有挑战性。从中不难看出:搜狗或许是国内语音领域第一个吃“深度学习”这只螃蟹的公司,而能够在此基础上以如此快的速度形成高度成熟的产品,搜狗技术人员的努力实在令人叹为观止。可以说,从开拓创新和拥抱前沿的角度上讲,搜狗虽然最后起跑,但今天却已经冲刺到了领先的位置上。

方言识别成技术攻坚重点

整句识别是语音输入最为重要的应用场景之一。而从本次评测来看尽管技术进步迅速,但几大语音输入产品在整句识别方面仍然存在着从一成多到近三成不等的错误率,仍有很大的改进空间。不得不说,讯飞作为语音识别领域的资深行家,技术积累从其产品在这一方面的性能上的优势中可见一斑——目前仅有搜狗语音输入的性能以微弱地差距紧随其后,其他产品则尚有较大的差距。

据参与测评的技术人员介绍,除性别差异外,整句识别误差主要源自于测试人的地方口音差异(这一点也是此测评的一项关键设计)。这一结果也确实反映出中文语音识别技术较之其他语言的一个特有难关。在此次测试中,仅讯飞和搜狗两种语音输入应用在面对全国各种主要地方口音时均能表现出较好的性能(这其中,讯飞甚至已经将“方言输入”作为其主要特点之一)。尽管如此,当测试人操较浓重方言时,被测输入法均只能在背景噪音干扰较低的情况下方能令人满意地工作。可以预期,如何进一步提高识别方言的能力,将成为语音识别领域接下来的研发重点。

相关推荐