谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

选自arXiv

作者：王雨轩等

机器之心编译

参与：李泽南、吴攀

最近，谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron，该模型可接收字符的输入，输出相应的原始频谱图，然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet 以及百度刚刚提出的 DeepVoice 具有架构上的优势。

现代文本转语音（TTS）的流程十分复杂（Taylor, 2009）。比如，统计参数 TTS（statistical parametric TTS）通常具有提取各种语言特征的文本前端、持续时间模型（duration model）、声学特征预测模型和基于复杂信号处理的声码器（Zen et al., 2009; Agiomyrgiannakis, 2015）。这些部分的设计需要不同领域的知识，需要大量精力来设计。它们还需要分别训练，这意味着来自每个组件的错误可能会复合到一起。现代 TTS 设计的复杂性让我们在构建新系统时需要大量的工作。

此前，WaveNet（van den Oord et al., 2016）是一种用于生成音频的强大模型。它对 TTS 来说效果良好，但由于样本级自回归采样的本质（sample-level autoregressive nature），速度较慢。它还需要对来自现有 TTS 前端的语言特征进行调节，因此不是端到端的：它只取代了声码器和声学模型。另一个最近开发的神经模型是百度提出的 DeepVoice（Arik et al., 2017），它通过相应的神经网络代替经典 TTS 流程中的每一个组件。但其中的每个组件都是独立训练出来的，改变系统以端到端形式训练非常重要。

论文：Tacotron：一个完全端到端的文本转语音合成模型（Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model）

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

摘要：

一个文本转语音的合成系统通常需要多个处理阶段，例如文本分析前端、声学模型和音频合成模块。构建这些组件经常需要多种领域的专业知识，而且设计选择也可能很脆弱。在本论文里，我们提出了 Tacotron——一种端到端的生成式文本转语音模型，可以直接从字符合成语音。通过<text, audio>配对数据集的训练，该模型可以完全从随机初始化从头开始训练。我们提出了几个可以使该序列到序列框架在这个高难度任务上表现良好的关键技术。Tacotron 在美式英语测试里的平均主观意见评分达到了 3.82 分（总分是 5 分），在自然感（naturalness）方面优于已在生产中应用的参数系统（parametric system）。此外，由于 Tacotron 是在帧（frame）层面上生成语音，所以它比样本级自回归（sample-level autoregressive）方式快得多。

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

图 1：模型架构。该模型接收字符的输入，输出相应的原始频谱图，然后将其提供给 Griffin-Lim 重建算法以生成语音

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

图 2：CBHG（一维卷积库+highway 网络+双向 GRU）模块，改编自 Lee et al. (2016)

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

表 1：超参数和网络架构。「conv-k-c-ReLU」表示宽度为 k、有 c 个输出通道、带有 ReLU 激活的一维卷积。FC 代表全连接。

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

图 3：在测试短语上的注意对齐（attention alignment）。由于使用了 r=5 的输出规约（output reduction），Tacotron 的解码器的长度更短。

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

图 4：使用和不使用后处理网络的预测谱图对比

研究人员进行了平均意见得分测试（mean opinion score，MOS）——由测试者对合成语音的自然程度进行 5 分制的李克特量表法（Likert scale score）评分。MOS 的测试者均为母语人群，共使用 100 个事先未展示的短语，每个短语获得 8 次评分。当计算评分时，只有在测试者佩戴耳机时打出的评分被计算在内。作为对比，研究人员将 Tacotron 与参数式（parametric）系统（基于 LSTM（Zen et al., 2016））和拼接式（concatenative）系统（Gonzalvo et al., 2016）做了比较，后两者目前均已投入商业应用。测试结果如下表显示：Tacotron 的 MOS 分数为 3.82，优于参数系统。由于参照基准已经非常强大，以及 Griffin-Lim 合成的引入，这一新方法具有非常好的前景。

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

表2：意见得分测试结果

项目 GitHub：https://github.com/google/tacotron

语音合成音频试听：「Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model」

https://google.github.io/tacotron/

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

Allsle

相关推荐

新研究起底人类和机器注意力机制的区别｜一周AI最火论文

百度大脑5.0发布，宣布与华为重要合作，全新AI芯片「鸿鹄」面世

「微信同声传译」小程序插件：快速实现语音转文字、文本翻译、语音合成等能力

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

百度语音合成在python中的使用

在Python中使用科大讯飞Web API进行语音合成

极大提升合成速度，百度提出首个全并行语音合成模型ParaNet

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

阿里巴巴语音交互智能团队：基于线性网络的语音合成说话人自适应

智能语音交互：阿里的研究和实践

语音合成到了跳变点？深度神经网络变革TTS最新研究汇总

人工智能已经掌握人类语言了吗？外表有时会骗人

无需蝴蝶结变声器也能一秒变柯南——语音合成+深度学习

为了合成让人类听懂的语音，机器做了哪些“深度学习”？

从技术到产品，苹果Siri深度学习语音合成技术揭秘

用于语音合成的深度前馈序列记忆网络

讯飞语音JavaWeb语音合成解决方案

XML在语音合成中的应用