爱科技 2016-11-22
安科网讯 11月22日下午消息,百度今日宣布开放四项全新语音技术的接口,帮助用户提升在使用语音与机器进行交流时的交互体验,该决定恰逢百度语音开放平台上线3周年。
百度首席科学家吴恩达介绍了这四项语音技术,分别是情感合成、远场方案、唤醒二期技术和长语音方案。
“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。
具体方面,这些技术旨在解决用户在使用语音交互的场合时,普遍感到困扰的一些关键问题。例如,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声效果,百度今年早些时候曾利用此技术,复原已逝明星张国荣的声音。
类似地,开发者还可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
例如,前两者的代表是百度的“小度机器人人机语音交互点餐”,已在上海肯德基旗舰店投入应用,可远距离随时应答点餐。后者则已经在诸多内容记录、智能客服、视频转写等场景实现应用。
此前,百度语音开放平台已经在手机、家电、汽车和通讯服务等多领域实现合作覆盖,具体合作伙伴包括联想、中兴、长虹、康佳、SONY、特斯拉、途胜、惠普、艾米通讯、携程,及手机QQ阅读等。
公开资料显示,百度语音开放平台上线于2013年10月,目前每日在线语音识别要求1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。
值得一提的是,在吴恩达及其团队的研发下,百度语音识别准确率目前已高达97%,深度语音识别系统Deep Speech 2还入选了 MIT 2016十大突破技术。