ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第2篇论文

ACL 2017 Short Papers

将方言多变性纳入社会公平语言识别

Incorporating Dialectal Variability for Socially Equitable Language Identification

斯坦福大学

Stanford University

【摘要】语言识别（LID）是处理多语言文本任务关键的第一步。然而，大多数LID系统并不旨在处理全球平台（如Twitter）的语言多样性，本地方言和泛滥的语码转换导致语言分类器系统地错过了少数民族方言使用者和多语言说话者。我们提出了一种新的数据集和基于字符的seq2seq模型，用于支持方言和多语种识别。我们的模型在多个LID基准上实现了最先进的性能。此外，在使用Twitter进行健康跟踪的案例研究中，我们的方法大大增加了由弱势族群编写文本的可用性，从而实现“社会包容性”NLP工具的开发。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

1 引言

语言识别（LID）是多语言文本NLP任务中重要的第一步。在Twitter的全局设置中，文本是由不同语言背景的作者撰写的，他们可能会与区域方言使用者进行沟通，甚至包含同一个消息的并行翻译来与不同的听众讲话。这种方言的变化在所有语言中都是频繁的，甚至是美国和英国英语等宏观方言，都是由城市和社会经济发展水平不同的当地方言组成的。目前，针对数十种语言训练的主流LID系统主要是利用欧洲中心语料库，而不考虑人口统计和方言变化。因此，这些系统将具备数百万使用群体，这些群体的方言与大部分方言都不同。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

图1 Twitter中社会公平的LID的挑战包括方言文本，如尼日利亚（＃1）和爱尔兰（＃2）以及＃3中的多语言文本（印度尼西亚语和英语）。

目前已经出现了多个在全球范围内主流的LID系统。然而，只有少数技术已经解决了全球数据语言变异性的挑战，如图1所示的方言变体和多语言文本。这些技术通常仅集中在有限的变异性方面，例如，个人方言，如非洲裔美国人本土英语、在线演讲、类似语言或词级的语码转换。

在这项工作中，我们的目标是设计一个社会公平的LID，这将使得能够以人数较少的方言、多语言消息和其他语种，进行大规模多语言、具备广泛覆盖人群的语言识别。我们首先在全球范围内构建一个大型的Twitter帖子数据集（§2）。然后，我们引入一个LID系统EQUILID，产生每个分词的语言标注，并获得四个LID任务（§3）的最优性能，超过主流LID基准的300％。最后，我们提出了一个关于使用Twitter进行健康监测的案例研究，并表明（1）当前广泛使用的系统受到来自发展中国家文本召回率低的影响，（2）我们的系统大大减少了这种差距，并使社会公平的LID成为可能。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

2 搜集社会代表文本

尽管语言中已经存在一些已知的语言差异，但目前主流LID系统主要针对以欧洲为中心的来源数据进行了训练，通常是由于数据可用性。此外，即使训练融入了维基百科全球范围内的文本，他们的作者仍主要来自高度发达国家。这种潜在的偏见可能会显著影响下游应用程序（我们稍后将在第4节中详述），因为语言识别通常被认为是一个已解决的问题，大多数研究采用现成的LID系统，而不考虑它们是如何训练的。

我们的目标是为LID创建一个社会代表性语料库，用于捕获语言中的变体，如正字法、方言、形式、主题和拼写。受最近Twitter语言调查的驱动，我们接下来描述了如何在三个维度上构建70种语言的语料库：地理、社会和话题多样性以及多语言性。

地理多样性 我们通过以人为中心的方法通过boot-strapping来创建一个不同地域的大规模文本数据集，这些方法将位置和语言描述视为作者推断的人口统计属性。通过推断Twitter用户，然后从单语用户收集文档，我们确保捕获到每一种语言的区域变异，而不是专注于语言变体的一个特定方面。

Compton等人（2014）和Jurgens等人（2015）提出一种方法可以推断个体位置。该方法首先通过带有地理标签的推文确定具有真实可靠地理位置的个体，然后推断其他个体的位置，作为其朋友的地理位置中心，将该推断方法迭代地应用于整个社交网络。该方法在城乡用户中，十公里范围内是准确的（Johnson等，2017），这对我们在此使用的城市粒度的分析是足够的。我们使用一个具有2.3B边的关于相互提及的网络来定位132M用户。

为了识别单语用户，我们对同一个人的推文进行分类，如果他至少有20个tweets，并且95％被标记为同一种语言l，则该作者被视为单语用户。我们使用这种重复标注过程来自动识别错误分类的推文，当这些推文在地理上聚合时，就可以捕获区域方言和主题了[1]。我们使用langid.py和CLD2作为分类器来构建单独的单语集，以减轻每个语言的偏差。

社会和主题多样性 作者调整他们的不同写作风格。因此，我们从不同层次的广泛话题中获取语料库。从（1）维基百科文章和更加非正式的谈话页面收集70种语言文本，（2）圣经和古兰经翻译（3）JRC-Acquis，欧洲立法的集合，（4）“联合国人权宣言”，（5）“Watchtower”在线杂志，（6）2014年和2015年“区分类似语言”任务的迭代和（7）Twitter70数据集。我们还包括从俚语网站（例如城市词典Urban Dictionary）中提取的单语言语料库和来自Blodgett等人的非洲裔美国本土英语数据。（2016）。对于所有来源，我们通过聚合最多140个字符的句子来顺序提取实例。

多语言多样性 作者在Twitter上生成多语言文本，此外Rijhwani等人（2017）估计，3.5％的推文是语码转换的。为了捕捉多语言文档中的潜在多样性，我们执行数据扩充来综合构建推文的多语言文档，通过（1）从任意来源对两种语言进行文本抽样；（2）每个文档的被抽样的几率为50％，根据常用的标点符号对文本进行分割，（3）将两个文本连接在一起，并将其添加到数据集中（如果≤140个字符）。我们仅创建句子级或短语级的语码转换，而不是字级的转换，以避免外来词歧义，这被认为是一个重大挑战。

语料库概要 地理多样化的语料库是由两个Twitter数据集构成的：来自2014年3月的所有推文的10％样本的13B推文和从2016年11月起所有带有地理标签推文的1％样本中提取的14.2M推文。最终，我们收集来自197个国家和53种语言的1.5M用户的97.8M推文。在数据集中识别单语作者之后，9.4％的实例（9.1M）被CLD2或langid.py标记为与其作者所说的语言不同的语言；由于几乎所有都被错误分类，因此我们认为这些是很有价值的数据，以修正系统误差。

共收集了2.58亿个实体，用于主题和社会多样化的语料库。多语言实例是通过对所有语言对的文本进行抽样创建的；共有3.2M的合成实例被创建。补充材料中对全部细节进行了描述。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

3 Equitable LID分类器

我们介绍EQUILID，并对单语和多语的tweet文本进行评估。

模型基于特征的神经网络架构特别适用于LID，因为它们有助于模拟语言的微妙正字法现象和语音特性，例如，捕获常规语素在一种语言的出现次数。此外，与基于字的方法相比，基于字符的方法显著降低了模型的复杂性；基于字的方法需要对于每个单词形式进行单独神经表示，因此这种方法在包含数千万个不同单词的多语言环境中是不可行的。我们使用编码器-解码器架构和注意机制。编码器和解码器是具有512个门控反复单元的3层递归神经网络。该模型被训练为基于空白字符对字符序列输入进行分词，并且输出带有每个分词的语言序列，以及用于标点符号，主题标签和用户提及的额外的分词类型。

设置社会代表性语料库（§2）中的数据被分为训练、开发和测试集（分别为80％/ 10％/ 10％），分别对每个源（例如维基百科）的数据进行区分。由于规模不同，我们对每个源和语言施加最多50K个实例，以减少训练误差。最终数据集共使用了52.3M的实例。多种语言实例是由其各自分割内的文本产生的，以防止测试-训练集重叠。对于Twitter70数据集，我们使用与Jaech等人（2016）相同的训练、开发和测试分割。所有评估使用相同的训练模型。所有的参数优化都是使用adadelta（Zeiler，2012）的开发套件进行的，具有64个小批量的训练模型。该模型训练了270万步，大概有三个阶段。

比较系统 我们比较了两个主流的LID系统，langid.py和CLD2，两者都被广泛应用于NLP社区的Twitter。CLD2在网页文本上进行训练，而langid.py在newswire、JRC-Acquis、网页和维基百科上进行训练。既不是为Twitter设计的，我们对文本进行预处理以删除用户提及的主题标签和URL以进行更公平的比较。对于多语言文档，我们用Lui等人（2014）描述的、为此特定任务而设计的Polyglot替代langid.py。

我们还结合了Jaech等人（2016）的研究成果，他们为两个基准测试训练了不同的模型。他们的架构使用卷积网络，使用其字符将每个输入字变换为一个向量，然后将字向量推送到一个LISM编码器，该解码器将语言解码为每字的soft-max分布。对这些单词语言分布取平均分布，以识别输入文本最可能属于哪种语言。相比之下，我们的架构仅使用基于字符的表示，并产生每个分词的语言分配。

基准我们用三个数据集测试单语设置：（1）§2的地理多样化语料库的测试部分，涵盖53种语言，（2）Twitter70数据集的测试部分，涵盖70种语言，（3）TweetLID共享任务，涵盖6种语言。TweetLID数据包括加利西亚人，由于其出现的相对不频繁，因此这不是我们包含的70种语言之一。因此，我们仅对非加利西亚部分的数据进行了实验。使用70种语言综合构建的多语言数据的测试数据部分，测试多语言LID。使用宏平均和微平均F1值评估模型。宏平均F1表示每种语言的平均F1，与该语言的实例数无关。微平均F1表示从所有实例测量的F1值，并受数据集中语言分布偏差的影响。

结果 EQUILID在所有基准测试中都能达到其他主流LID系统的最先进的性能。我们把这个优势归因于其更具代表性的训练数据；的确，Jaech等人（2016）表示，langid.py仅在Twitter70数据上进行再训练时，获得了更高的0.879的F1值，值得强调的是，由于社交媒体的多样性，主流系统通常不会进行数据训练。尽管受到广泛训练，EQUILID也优于Jaech等（2016）的基准最优模型。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

表1 四项基准测试结果。Jaech等人（2016）实验结果是针对不包括加利西亚人的每个基准最优的独立模型。对于多语言推文，我们使用Lui等人（2014）描述的langid.py的扩展。

在多语言环境中，EQUILID大幅优于Polyglot和CLD2，与之前相比，宏平均F1超过300％的增长。此外，由于我们的模型还可以识别每种语言鸿沟，因此我们将其性能视为在语言之间检测句子和语言间短语转换的全语言解决方案上的重要一步。事实上，在Twitter70数据集中，EQUILID发现大约5％的测试数据是未标记的语码转换实例，如图1中的第三个例子。

错误分析 为了确定分类错误的主要来源，我们在Twitter70的测试集上手动分析了EQUILID的输出。该数据集包含9,572个测试实例，其中90.5％被我们的系统正确分类；我们在剩下的909个错误分类的例子中讨论错误源。

用相同脚本编写的，使用重叠词汇的密切相关语言分类是最大的错误来源（374个错误分类的实例，占所有错误的41.1％）。斯拉夫语言是最具挑战性的，177个波斯尼亚和65个斯洛文尼亚语推特被归类为克罗地亚语。这是不足为奇的，考虑到即使对于人工标注，这项任务也是具有挑战性的（或不可能的）。例如，一个错误分类的波斯尼亚语推特（“多汁巧克力饼干食谱”）与克罗地亚语相同。印度语言有39个错误，孟加拉语、马拉地语、尼泊尔语、旁遮普语和乌尔都语推文被归类为印地语。日耳曼语中、丹麦语、挪威语和瑞典语经常混淆，造成22个错误。

错误的另一个主要原因是由于英语的音译和语码转换：印地语、乌尔都语、菲律宾语、泰卢固语和旁遮普语中的328条消息被归为英文，占36.1％的错误。一个印地语推文dost tha or rahega ... dont wory ...but dheryarakhe（“he was and will remain a friend ... don’tworry ... but have faith”）是一个例子，错误地由我们的系统分为英语。由于缺乏这些语言的音译示例，目前很难减少这种类型的错误。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

4 案例研究：健康监测

我们总结一个现实案例研究，使用Twitter帖子作为跟踪健康趋势的实时信息来源。这些信息对于那些没有足够资源来识别趋势的地区尤其重要。通常，趋势跟踪方法首先应用语言识别方法来选择特定语言内容，然后应用复杂的NLP技术来识别与其目标现象相关的内容，例如区分流感评论与宿醉相关的内容。这个环境是社会包容的LID系统可以产生的实际影响：有效分类弱势族群方言的LID系统可以大大增加趋势跟踪方法的召回率，从而有助于揭示最需要它的地区的传染病危险趋势。

语言品种与社会阶层和民族认同相关联。作为一个案例研究，我们评估LID系统在识别包含健康词汇的英语推文中，跨越具有不同人类发展指数（HDI）的区域的功效。我们将EQUILID与langid.py和CLD2进行比较。

设置健康相关的术语列表是从流行性感冒词典、心理健康词典、和与年龄、性别和人格特征相关的时间导向词典汇编的。我们从每个词典中挑选了100个具有最高权值的字母数字术语，形成了共385个独特术语。

为了分析区域语言的可能影响，我们选择了25个具有英语口语人口的国家，并为主要城市建立了62个边界框进行研究。使用GnipAPI，在2016年1月期间收集了总共984K的推文，这些推文至少使用了一个术语，并在同一个边界框内产生。由于这些推文需要包含特定领域的术语，绝大多数都是英文[2]。因此，我们根据这些推文分为英文的百分比来衡量每个系统的性能，估计它们的召回率。

结果为了了解人类发展指数与LID性能的关系，我们训练一个Logit回归模型，以根据推文起源国家的HDI来预测具有目标术语之一的推文是否会被认为是英文。图2显示了两个基准模型对发展中国家的LID准确率的差异。相比之下，EQUILID在所有级别的HDI下都胜过两个系统，并为发展水平最低的国家多进行了额外30％的观测。由于更多的英文文本来自人口众多的发展中国家，如尼日利亚（HD 0.527）和印度（HDI 0.624），每个都有数千万讲英语的人，因此，在全球环境下，这种性能改进日益重要。EQUILID分别提高了每个国家英语推文的23.9％和17.4％的召回率。这项研究证实了我们的假设，即社会公平的训练语料库是实现社会公平NLP的重要第一步。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

图2根据推特起源国的人类发展指数的逻辑回归曲线估计与健康相关词的召回率；波段显示95%置信区间。

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

5 结论

全球口语的语言通常根据区域方言、话题或社会语言因素的不同而不同。然而，大多数LID系统并没有针对这种语言多样性进行设计和训练，这对于文本的语言识别是很不利的。在这项工作中，我们引入了一个社会公平的LID系统EQUILID，它由（1）创建可以代表语言多样性类型的数据集，（2）明确对任意语言对的多语言和代码交换进行建模。我们证明EQUILID显著优于当前的主流LID系统，而在跟踪健康相关内容的真实案例研究中，EQUILID显著降低了发展中国家和发达国家之间的LID性能差距。我们的工作在确保NLP工具充分代表所有人的基础上，继续强调了NLP的社会效益。EQUILID系统可从https：//github.com/davidjurgens/equilid公开获取，数据可根据要求获取。

论文下载链接：

http://www.aclweb.org/anthology/P/P17/P17-2009.pdf

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

长按识别二维码可添加关注

读芯君爱你

ACL2017 | 斯坦福：将方言多变性纳入社会公平语言识别

阳光的Twitter