解放双手，人机交互真的只需要一张嘴吗？

自互联网诞生以来，人与机器的信息交互方式就在不断演进和发展。从早期单一的鼠标、键盘操作方式，再到如今以智能手机为代表的触控交互。我们急切地想知道：下一代的人机交互方式是什么？

智能语音，赋予了机器可以像人类一样“讲话”并与人类“对话”的能力，也让不少人看到了语音技术的巨大潜力。追溯起来，有关语音技术真正意义上的研究可以追溯到 1876 年贝尔电话的发明。

从 2009 年开始，借助机器学习领域深度学习研究的发展及大数据语料的积累，以语音识别为突出代表的语音技术得到了突飞猛进的发展。如将深度学习引入语音识别声学模型训练，使用基于 RBM 预训练的多层神经网络，以提高声学模型的准确性，包括苹果公司的 Siri、谷歌公司的 Google Assistant 的面世曾一时引起了不小轰动。2015 年，亚马逊 Amazon Echo 的诞生正式开启了智能语音技术的竞争局面。从智能音箱到主打语音交互的智能设备，国内外巨头们不惜轮番价格战。

截止到目前，国内外的战场上有阿里、腾讯、百度，也有谷歌、微软、亚马逊、Facebook，它们的介入导致不少创新公司展开了激烈竞争，也对未来十年产生了极其重要的影响。

在众多语音技术中，语音识别、语音合成、声纹识别、语音唤醒、端信号处理等语音技术伴随着算法统计模型的迭代有了新的重大创新，也成为当前最具有挑战性和应用场景的技术。

以声纹识别为例，即通过对一种或多种语音信号的特征分析来判断说话人身份的技术。由于任何两个人的声纹图谱都有所差异，所以声纹同样具有如指纹生物特征一样的唯一性。声音不涉及隐私问题，麦克风和传感器等相关设备成本低廉，传输带宽窄，而语音又是一个形简意丰的信号，口音、语种、情感等各种信息通过一段声音便传输了出来。

清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受 CSDN 采访时表示：“目前在声纹识别这个领域，不同技术或产品提供商参差不齐、差异很大；与此同时，声纹识别不再是单一强调准确性，而是变得更为成熟、完备和可用。”

不过相对来讲，声纹识别仍是一个应用相对较窄的领域。就目前来看，语音识别、语音合成的应用更为广泛。

例如在年初举办的Google I/O 大会上，机器语音助手的一声“嗯哼”震惊了全场，然后微软小冰为知乎写歌又刷了一波屏。我们才意识到，AI 语音正悄然从原来的“机械式语音”变成了“像人类一样说话”的自然语言。

语音产业虽然可以由概念触发，但最终仍由技术驱动，打磨好技术和产品仍是第一要务。

出门问问 CTO 雷欣曾表示，“从技术上来讲，机器学习、人工智能跟其他功能性的东西不太一样，它非常强调学习的过程，训练跟实际使用场景越匹配越好，做得越通用，就代表在某一个垂直领域做不到最优。”

那么，随着语音市场需求的爆发，如何更好地通过智能技术解决声学、语音、语义等各方面的问题，对于任何一位语音技术相关领域的工程师而言，将是未来长期时间内必然面临的挑战。

现在，CSDN 就为大家提供了这样一个机会，让你能够聆听头部 AI 公司的最新技术实践，并有机会与这些公司的资深技术人员面对面交流。

2018 年 11 月 8-9 日，由中国 IT 社区 CSDN 与硅谷 AI 社区 AICamp 联合出品的 2018 AI 开发者大会（AI NEXTCon）将于北京召开。

本次大会设有“语音技术专场”，我们很荣幸邀请到在研究和工业界都极富盛名的一线技术专家们：清华大学语音和语言技术中心主任、得意音通董事长郑方，声智科技创始人、董事长兼 CEO 陈孝良，出门问问 CTO 雷欣、云知声董事长、CTO梁家恩，以及标贝科技联合创始人&CTO 李秀林。