DSFG 2019-07-02
大数据文摘专栏作品
作者:Christopher Dossman
编译:笪洁琼、conrad、云舟
呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。
每周更新,做AI科研,每周从这一篇开始就够啦!
本周关键词:语音合成、GAN、深度神经网络
本周热门学术研究
使用样式标记和半监督训练的端到端情绪语音合成
来自中国的研究人员针对训练数据中只有一小部分具有情绪标签的情况,提出了一种基于全局样式标记(GSTs)的半监督情绪语音合成(ESS)训练方法。
提出的模型是基于GST-Tacotron框架的。样式标记被定义为情感类别表示,并且在标记权重和情感标签之间引入交叉熵损失,以在标记和情感之间建立一对一的对应关系。然后通过现有的情感标签训练样本和多任务学习来估计算法参数。
改进的情绪语音合成在促进各种人机交互方面还有很长的路要走。该模型优于传统的Tacotron情绪语音合成模型,只有5%的训练数据有情感标签。该模型仅使用了5%的情感标签,证明了传统模型,在使用全部情感标签时的自然性和情感表达性。
情感识别实验证明,该方法能够有效地实现样式标记与情感类别之间的一一对应。
原文:https://arxiv.org/abs/1906.10859
GANalyze发布,反向启发人类视觉机理
研究人员最近提出了一个新的框架,GANalyze,以研究带来高层次认知属性的视觉特征和属性。他们利用GAN的潜在空间,从现成的记忆预测器中生成记忆能力增加或减少的图像。通过显示不同范围初始图像的可视化,他们得出了一个不同图像系列的目录,并展示了与可记忆性相关的各种视觉效果。
GANalyze框架由以下交互组件组成:
●生成器G:给定一个潜在的噪声向量z和类标签y,生成器生成一个逼真的图像G(z,y)G(z,y)。
●评估器A:为表示感兴趣的认知属性的大小的图像分配一个数值。
●转换器T:一个函数在G的潜在空间里,沿着一定方向θ输入z。
该模型学习如何转换z向量,以便当输入到生成器时,生成图像的相关属性发生变化。动作的转换是通过在生成器的潜在空间中将z沿着学习到的方向θ移动完成的。一些我们可能感兴趣的属性,比如记忆性,则是由评估器模块来预测的。最后,α可以用来改变一个希望实现的评估价值,它描述了转换器沿着θ移动了多少。
在本篇论文中,GANs可以被用来提供一种非参数的方法,在这种方法中,真实的图像可以根据它们的记忆得分进行排序,从而直观地显示它们对什么记忆深刻。实验证明,GANalyze发现了图像处理对人类记忆的影响,可以用来研究图像美学和情感效价。
代码:
https://github.com/LoreGoetschalckx/GANalyze
原文:https://arxiv.org/abs/1906.10112v1
用于目标说话人语音识别的辅助干扰损失函数
来自美国约翰霍普金斯大学和日本日立公司的研究人员开发了一种新的辅助损失函数,可以提高目标说话人的ASR准确度。他们提出的损失函数试图最大限度地干扰和调整网络以实现更好的表示,并同时提高目标说话人的ASR精度。
研究人员在不同的信噪比条件下,使用双说话人混合语音对新方法进行了评估,证明了该方法的有效性。他们还对该方法和架构进行了多次调查,包括使用辅助分支来弥补提辅助ASR损失的可能性。在辅助ASR设置下,该模型不仅可以输出目标说话人的语音,还可以输出其他说话人的语音,并在语音之间以一致的顺序输出。
据学者介绍,这是首次将基于最大互信息(LF-MMI)的声学模型(AM)应用于目标说话人ASR1的研究工作。因此,评价结果客观良好——测试集上的单词错误率(WER)为18.06%,而使用干净数据训练的正常ASR单词错误率为84.71%。更进一步地,这一辅助损失函数相对于基线额外降低了6.6%的WER.
在给定一个较小的目标说话人语音样本的情况下,该方法可以自动从多位说话人的混合语音中提取和转录目标说话人的语音。研究人员通过在模型中增加一个辅助输出支路来观察鲁棒性,该支路也可用于干扰说话者的辅助ASR。这项工作对许多实际应用具有吸引力,包括操作员自动识别、信息回放、呼叫控制、游戏AI、医疗和法律系统文档、制造业、交互式教育系统等等。
原文:https://arxiv.org/abs/1906.10876
深度神经网络中人体和人工注意机制的深入分析
最近,IEEE的研究为深度神经网络中的人体和人工注意机制提供了深入的分析。他们的工作是:神经注意力图是否符合人眼注视的结果?人类的注意力可以成为神经注意的正确基准吗?注意力如何随网络类型和深度而变化?注意力可以帮助避免对抗性攻击吗?
他们的研究得到了三个重要计算机视觉任务系统实验的支持,包括显著性对象分割,视频动作识别和细粒度分类。在评估时,他们的结果表明,人类的关注能够在注意力驱动的任务中对有意义的“基础事实”进行基准测试,其中人工关注越接近人类注意力,表现就越好。
这项工作表明,人类的注意力对于深度神经网络来说是有价值的,它能够帮助神经网络实现更好的性能并增强对扰动的鲁棒性,特别是对于注意力驱动的任务。
值得注意的是,注意力驱动的任务能够在人体和人工关注之间更一致时提高模型的性能。这种一致还能使深度网络更加透明、更具可解释性,从而能够在更高级别的计算机视觉任务中搭载鲁棒的应用。
原文:https://arxiv.org/abs/1906.08764v2
音视频特征融合的情感识别
在最近的一项研究中,研究人员提出了一种连续情绪识别的融合方法,该方法将视觉和听觉模态结合在其表示空间中,以预测唤醒和效价水平。该方法采用预先训练的CNN和转移学习来从捕获情绪内容的视频帧中提取特征。对于听觉内容,使用诸如韵律,激励,声道和频谱描述符的简约参数集作为特征。
研究中在训练单个支持向量回归量(SVR)之前或者在训练一个SVR用于每个模态之后,特征级别上会执行这两种模态的融合。所提出的方法还包括预处理和后处理技术,这有助于改善一致性相关系数(CCC)。用于预测RECOLA数据集上的自发和自然情绪的实验结果表明,该方法有效利用了视觉和听觉模态的补充信息,分别为唤醒和效价提供了0.749和0.565的CCC。
尽管正在开发新的融合方案,但传统的融合方案仍然能够提供强大的结果。但同样,在这种情况下,所提出的方法优于大多数当前方法,结果显示迁移学习在视频模态的模型中具有很大影响。
该工作提供了帮助研究人员和开发人员从视频帧功能中提取和捕获高级情感内容的能力。
原文:https://arxiv.org/abs/1906.10623
其他爆款论文
基于CNN将单眼相机的图像与给定的3D激光雷达图相匹配:
https://arxiv.org/abs/1906.10109v1
DALI数据集发布,包括大型、丰富的多模音频轨道数据及其构建方法:https://arxiv.org/abs/1906.10606
CVPR 2019的ActivityNet挑战详情:https://arxiv.org/pdf/1906.10555.pdf
新系统利用视听多模态通信的优势来建立说话者模型:
https://arxiv.org/pdf/1906.10042.pdf
在密集和异构环境中跟踪道路代理:
https://arxiv.org/abs/1906.10712
AI新闻
找个MIT的小哥哥或者小姐姐帮你建立机器学习模型:
https://news.mit.edu/2019/want-to-learn-how-train-ai-model-ask-friend-0625
谷歌人工智能高级研究科学家发布了两篇论文和嵌入图形的代码,宣布图形表示学习的创新:
https://ai.googleblog.com/2019/06/innovations-in-graph-representation.html