zihong 2018-04-18
在互联网公司强势入局语音智能领域之后,面对众多语音智能开放平台,国内的语音识别大厂,比如科大讯飞、思必驰、云知声.....也只好走上开放之路,相比于互联网公司多年的技术积累,这些语音识别技术大厂又有哪些必杀技呢?在免费、开放的条件下,开发者如何选择合适的平台添加语音能力到自己的产品中呢?
思必驰
思必驰全链路智能对话DUI开放平台发布时,7分钟定制一个语音技能和2亿开发者基金的投入增加了不少热度。思必驰DUI开放平台是面向开发者提供的完整智能对话交互方案,个人开发者只要进行用户注册就可以创建产品、添加技能、应用配置,最后直接发布版本。根据思必驰DUI平台的介绍,普通开发者只需要7分钟就可以开发出一个语音技能,目前支持智能终端和移动端两大平台,微信端和网页端即将上线。
云端通用领域识别率大于97%,场景语义理解率大于92%。思必驰早前就在做对话系统方面的研究,提供的语音智能开放平台有不少以前的技术积累。
科大讯飞
科大讯飞的语音识别能力被公认处于国内厂商的领先地位,据开发者表示,科大讯飞语音智能开放平台在各个操作系统上的表现都比较不错。讯飞开放平台在人工智能方面的整体实力更强,提供的语音服务也更加丰富,语音合同、语音识别(准确率达到98%以上)、语义理解、语音硬件、模式识别以及语音扩展等多个方面。
根据体验者反馈,如果与百度DuerOS平台对比,讯飞的语音识别技术、语义理解和底层技术都强于百度,但百度的平台功能要略胜一筹。如果开发者打算做自己的NLP平台,讯飞平台是一个不错的选择,但讯飞开放平台有一定的成本。
百度宣布语音技术接口永久免费开放对这些语音识别厂商来说是不小的冲击,尤其现在BAT全部都入局了,好在科大讯飞的语音识别技术一直是拔尖的,并且已经占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上。
云知声
云知声智能开放平台在国内厂商中的地位也是很靠前的,使用该平台之前,开发者无需登录就可以在线体验语音识别、语义理解、语音合成以及音频转写服务,虽然体验时可享受到的权限以及功能有限,但确实用户体验是极佳的。
云知声强调的是一个云、端、芯智能语音产品,基于云平台开发的移动应用、在线教育、智能芯片、智能客服等。开发者进入开放平台首页就可以看到SDK下载和文档中心链接,开发者的支持相对完善。
出门问问
很多人对出门问问的印象是“你好问问”智能后视镜、智能手表或者是融资金额巨大。其实,出门问问也有自己的语音开放平台,并且开发者只需注册,无需二次申请。出门问问提供全栈语音交互整合,即便开发者不是AI专业也可以轻松整合。官网上明确标注了热词唤醒、语音识别、语义理解、垂直搜索和语音合同几大功能亮点,每一个功能点进去都有SDK的详细介绍、下载链接和开发者论坛。
下载SDK之后就可以集成到产品中,开发者也可以根据需求定制技能,目前有Android全量版、轻量版和超轻量版以及Linux版本,支持的操作系统是Android 4.4及以上和Linux,支持的硬件架构是ARMv7 / ARM64 / MIPS / x86。
捷通华声
捷通华声的语音智能开放平台——灵云所提供的功能丰富程度不亚于科大讯飞,部分功能的产品详情页同样可以在线体验,比如语音合同TTS、语义理解、文字识别OCR等。网页导航栏可以轻松找到灵云开发者社区,注册后即可登录。
如果你想单纯体验灵云的语音服务,可以选择灵云语音云服务,包含灵云乐识和灵云乐说两大功能,点击官网的介绍就可以跳转到在线使用界面,登陆后就可以使用。灵云乐说是高辨识度的语音合成功能,灵云乐识是一个强大的录音转写功能。
结论
对于开发者而言,自然是优先选择免费的解决方案,上述语音开放平台只要在百度输入关键字即可找到官网。科大讯飞提供的语音智能开放平台能力最强,但具有一定成本。其他几家都可以免费体验,灵云的功能丰富度不亚于科大讯飞,不少功能可以在线免费体验,但灵云的语音云服务功能较少。云知声的开放体验服务种类多,但体验版功能有很多限制。出门问问的文档介绍和使用指南最为详细,开发人员可以根据自己的需求选择合适的平台开发。