没参加饭局的马云用iDST的语音技术买了张地铁票，竟然没说唤醒词

很快，上海地铁自助买票只需要「动动嘴」了，这背后又是阿里巴巴 iDST。

撰文 | 王艺

搭地铁，有几个步骤？

你可能需要掏出手机，打开地图软件，搜索到到达目的地的路线后，才能买票进站。有时，哪怕知道终点站，可能也记不清应该搭乘的是几号线。

12 月 5 日，阿里巴巴、蚂蚁金服和申通地铁集团联合推出新一代售票机，可以让乘客用语音交互的形式买票，具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说，站在机器旁，你只需要告诉它「我要去中山公园」，它就会自动调用云端的高德地图服务，确定目的地最近的地铁站后直接出票。

在上海申通地铁公司，马云亲自体验了「动动嘴」买票乘地铁。申通地铁公司与阿里巴巴联合，正在逐步对上海的自动售票机进行改造升级，并将于明年覆盖上海主要地铁线。

没参加饭局的马云用iDST的语音技术买了张地铁票，竟然没说唤醒词

签约仪式现场，图片来自澎湃记者

对阿里巴巴而言，项目意义重大。此前，我们更多听到阿里巴巴在城市道路交通等方面的布局。现在，阿里巴巴通过售票机、闸机、客流预测，开始覆盖智能票务、公共交通管理等，进一步完善其城市大脑的范畴。

当然，这背后仍然少不了达摩院 iDST 的身影。这是上周声学专家、原宝利通（Polycom）声学设计与信号处理首席工程师冯津伟加入阿里巴巴 iDST 语音团队之后，该语音团队又完成的一件大事。作为项目主要负责人，iDST 语音团队负责人鄢志杰认为，地铁智能购票系统所用的多模态交互就是阿里巴巴 iDST 团队对下一代人机交互可能性的一种尝试——你只要走近机器，不需要唤醒，它就会自动与你发生交互。

「或许未来就没有唤醒词这个概念了。」鄢志杰说。

更方便的语音购票如何实现？

地铁站人多嘈杂，准确识别语音命令是个挑战，鄢志杰团队把计算机视觉技术融合到语音识别技术中，攻克了嘈杂环境下的远讲降噪问题。

实测视频

他们为系统添加了光学摄像头模块，通过识别机器视角内人员的嘴部动作识别说话人，并判断说话人与机器的距离以及确定拾音角度。这些视觉信号将会与音频信号相融合，通过一个大的麦克风阵列以及配套的软件信号处理器进行抑制干扰与信号增强，最终做到准确拾音。

在语音交互方向上，强噪声、强干扰下的人机交互问题一直都是 iDST 的研究重点。鄢志杰解释说，这些视觉、听觉结合的技术被称为「多模态融合技术」，是人机交互发展的新方向。今年云栖大会上，阿里巴巴宣布成立达摩院，而达摩院的成立初衷之一便是实现下一代人机交互。

目前，以智能音箱、语音助手等语音对话系统为代表的人机交互，最大的局限在于需要唤醒词，且仅限于家居、车载等相对封闭且安静的环境。而下一代人机交互要适用于更多更复杂的场景，地铁购票项目则是阿里巴巴 iDST 团队的第一次试水。

地铁购票是起点，底层技术还会被广泛复制

大约半年前，鄢志杰所在的团队开始孵化这一底层技术的研发，由五个人组成的小分队负责。在这次项目方案中，iDST 内部也有合作，「光学摄像头，是任小枫团队给我们 API 的调用，我们做了多模态整合。」鄢志杰说。

鄢志杰透露，地铁项目给团队带来的挑战是系统稳定性以及快速学习能力。在地铁这样的公共服务设施中，系统需要全天候工作。并且不像互联网云端项目方便修改，地铁项目的修改灵活性要稍差一些。

另外，项目正式上线运营后，大规模的用户涌入，如何识别用户千奇百怪的交互方式也是团队需要面对的难点之一，这需要系统具备很强的快速学习能力，迅速适应用户的自然表达方式。

而这只是项目底层技术——嘈杂环境下远讲降噪技术第一个使用场景，并非针对项目定制。在地铁语音购票之外，它还有很强的普适性。在如机场、火车站、展会、社区、餐厅、商场等开放的嘈杂场景下，该技术都能发挥作用。例如社区问讯系统、电梯广告交互系统、景区导览等。

鄢志杰表示：「这些嘈杂环境是用户生活中最常遇到的，同时从技术层面来说本身又是最难的一类场景。」

阿里巴巴正积极寻找新场景，与合作伙伴一起开发落地途径。鄢志杰表示，团队希望这一技术能走到每一个人身边。「之前我没有见到过哪一家公司能在这么嘈杂的公共环境下做远距离的交互。」鄢志杰说，这是阿里人工智能的底气。

没参加饭局的马云用iDST的语音技术买了张地铁票，竟然没说唤醒词

相关推荐