分享:2018自然语言处理研究报告!(附完整版下载)

TensorFlowNews 2018-07-30

点击上方关注,All in AI中国

自然语言处理是人工智能的一个重要应用领域,也是新一代计算机必须研究的课题。它的主要目的是克服人机对话中的各种限制,使用户能用自己的语言与计算机对话。本研究报告对自然语言进行了简单梳理,包括以下内容:

自然语言处理概念。首先对自然语言处理进行定义,接着对自然语言的发展历程进行了 梳理,对我国自然语言处理现状进行了简单介绍,对自然语言处理业界情况进行介绍。

自然语言处理研究情况。依据 2016 年中文信息学会发布的中文信息处理发展报告对自 然语言处理研究中的重要技术进行介绍。

自然语言处理领域专家介绍。利用 AMiner 大数据对自然语言处理领域专家进行深入挖掘,对国内外自然语言处理知名实验室及其主要负责人进行介绍。

自然语言处理的应用及趋势预测。自然语言处理在现实生活中应用广泛,目前的应用集 中在语言学、数据处理、认知科学以及语言工程等领域,在介绍相关应用的基础上,对机器 翻译未来的发展趋势做出了相应的预测。

以下是摘取的报告的部分内容,完整版点击关注“AI中国”,私信回复“NLP”即可获得《2018自然语言处理研究报告》

自然语言处理概念

自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。在整个人类历史上以语 言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于 数学计算的仅占 10%,用于过程控制的不到 5%,其余 85%左右都是用于语言文字的信息处 理。

处理包含理解、转化、生成等过程。自然语言处理,是指用计算机对自然语言的形、音、 义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操 作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重 要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信 息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然 语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机 能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。

分享:2018自然语言处理研究报告!(附完整版下载)

自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次, 可以更好地体现语言本身的构成,五个层次分别是语音分析、词法分析、句法分析、语义分 析和语用分析。

语音分析是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规 则找出音节及其对应的词素或词。

词法分析是找出词汇的各个词素,从中获得语言学的信息。

句法分析是对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各 自在句中的作用。

语义分析是找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。语用分析是研究语言所存在的外界环境对语言使用者所产生的影响。

在人工智能领域或者是语音信息处理领域中,学者们普遍认为采用图灵试验可以判断计 算机是否理解了某种自然语言,具体的判别标准有以下几条:

第一, 问答,机器人能正确回答输入文本中的有关问题;

第二, 文摘生成,机器有能力生成输入文本的摘要;

第三, 释义,机器能用不同的词语和句型来复述其输入的文本;

第四, 翻译,机器具有把一种语言翻译成另一种语言的能力。

分享:2018自然语言处理研究报告!(附完整版下载)

自然语言处理业界发展

分享:2018自然语言处理研究报告!(附完整版下载)

 微软亚洲研究院

微软亚洲研究院 1998 年成立自然语言计算组,研究内容包括多国语言文本分析、机器 翻译、跨语言信息检索和自动问答系统等。这些研究项目研发了一系列实用成果,如 IME、 对联游戏、Bing 词典、Bing 翻译器、语音翻译、搜索引擎等,为微软产品做出了重大的贡 献,并且在自然语言处理顶级会议,例如 ACL(Association for Computational Linguistics)、COLING(International Conference on Computational Linguistics)等会议上发表了许多论文。

2017 年微软在语音翻译上全面采用了神经网络机器翻译,并新扩展了 Microsoft Translator Live Feature,可以在演讲和开会时,实时同步在手机端和桌面端,同时把讲话者 的话翻译成多种语言。其中最重要的技术是对于源语言的编码以及引进的语言知识,微软将 句法知识引入到神经网络的编码、解码中,得到了更好的翻译。同时,微软还表示,将来要 将知识图谱纳入神经网络机器翻译中规划语言理解的过程中。

在人机对话方面微软也取得了极大的进展,如小娜现在已经拥有超过 1.4 亿用户,在数 以十亿计的设备上与人们进行交流,并且覆盖了十几种语言。还有聊天机器人小冰,正在试 图把各国语言的知识融合在一起,实现一个开放语言自由聊天的过程,目前小冰实现了中文、 日文和英文的覆盖,有上亿用户。

分享:2018自然语言处理研究报告!(附完整版下载)

 Google

Google 是最早开始研究自然语言处理技术的团队之一,作为一个以搜索为核心的公司,Google 对自然语言处理更为重视。Google 拥有着海量数据,可以搭建丰富庞大的数据库, 可以为其研究提供强大的数据支撑。Google 对自然语言处理的研究侧重于应用规模、跨语言和跨领域的算法,其成果在 Google 的许多方面都被使用,提升了用户在搜索、移动、应 用、广告、翻译等方面的体验。

机器翻译方面,2016 年 Google 发布 GNMT 使用最先进的训练技术,能够实现机器翻 译质量的最大提升,2017 年宣布其机器翻译实现了完全基于 attention 的 transformer 机器翻 译网络架构,实现了新的最佳水平。

分享:2018自然语言处理研究报告!(附完整版下载)

Google 的知识图谱更是遥遥领先,例如自动挖掘新知识的准确程度、文本中命名实体的 识别、纯文本搜索词条到在知识图谱上的结构化搜索词条的转换等,效果都领先于其他公司, 而且很多技术都实现了产品化。

语音识别方面,Google 一直致力于投资语音搜索技术和苹果公司的 siri 竞争,2011 年 收购语言信息平台 SayNow,把语音通信、点对点对话、以及群组通话和社交应用融合在一 起,2014 年收购了 SR Tech Group 的多项语音识别相关专利,自 2012 年以来将神经网络应 用于这一领域,使语音识别错误率极大降低。

 Facebook

Facebook 涉猎自然语言处理较晚,Facebook 在 2013 年收购了语音对语音翻译(speech- to-speech translation)研发公司 Mobile Technologies,开始组建语言技术组。该团队很快就投 入到其第一个项目——翻译工具——的研发,到 2015 年 12 月,Facebook 用的翻译工具已 经完全转变为自主开发。Facebook 语言技术小组不断改进自然语言处理技术以改善用户体 验,致力于机器翻译、语音识别和会话理解。2016 年,Facebook 首次将 29 层深度卷积神经 网络用于自然语言处理,2017 年,Facebook 团队使用全新的卷积神经网络进行翻译,以往 循环神经网络 9 倍的速度实现了当时最高的准确率。

2015 年,Facebook 相继建立语音识别和对话理解工具,开始了语音识别的研发之路。2016 年 Facebook 开发了一个响应“Hey Oculus”的语音识别系统,并且在 2018 年初开发了wav2letter,这是一个简单高效的端到端自动语音识别(ASR)系统。Facebook 针对文本处 理还开发了有效的方法和轻量级工具,这些都基于 2016 年发布的 FastText 即预训练单词向 量模型。

 百度

百度自然语言处理部是百度最早成立的部门之一,研究涉及深度问答、阅读理解、智能 写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘、个性化、反馈学习等。其中, 百度自然语言处理在深度问答方向经过多年打磨,积累了问句理解、答案抽取、观点分析与 聚合等方面的一整套技术方案,目前已经在搜索、度秘等多个产品中实现应用。篇章理解通过篇章结构分析、主体分析、内容标签、情感分析等关键技术实现对文本内容的理解,目前, 篇章理解的关键技术已经在搜索、资讯流、糯米等产品中实现应用。百度翻译目前支持全球28 种语言,覆盖 756 个翻译方向,支持文本、语音、图像等翻译功能,并提供精准人工翻 译服务,满足不同场景下的翻译需求,在多项翻译技术取得重大突破,发布了世界上首个线 上神经网络翻译系统,并获得 2015 年度国家科技进步奖。

对百度自然语言处理部做出重要贡献的人物不可不提王海峰、吴华等人。王海峰是百度 现任副总裁,负责百度搜索引擎、手机百度、百度信息流、百度新闻、百度手机浏览器、百 度翻译、自然语言处理、语音搜索、图像搜索、互联网数据挖掘、知识图谱、小度机器人等 业务。是 ACL 50 多年历史上唯一出任过主席(President)的华人,也是迄今为止最年轻的ACL Fellow。同时,王海峰博士还在多个国际学术组织、国际会议、国际期刊兼任各类职务。 吴华是百度自然语言处理部技术负责人,她所领导的团队在自然语言处理和机器翻译方面取 得重大突破,同时她主持研发的多项 NLP 核心技术应用于搜索、Feed、Duer OS 等百度产 品。吴华署名的专利达 40 余件、重要学术论文 50 余篇,在 IJCAI、ACL 等国际会议上多次 发声。

 阿里巴巴

阿里自然语言处理为其产品服务,在电商平台中构建知识图谱实现智能导购,同时进行 全网用户兴趣挖掘,在客服场景中也运用自然语言处理技术打造机器人客服,例如蚂蚁金融 智能小宝、淘宝卖家的辅助工具千牛插件等,同时进行语音识别以及后续分析。阿里的机器 翻译主要与其国家化电商的规划相联系,可以进行商品信息翻译、广告关键词翻译、买家采 购需求以及即时通信翻译等,语种覆盖中文、荷兰语、希伯来语等语种,2017 年初阿里正式 上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。

 腾讯

AI Lab 是腾讯的人工智能实验室,研究领域包括计算机视觉、语音识别、自然语言处 理、机器学习等。其研发的腾讯文智自然语言处理基于并行计算、分布式爬虫系统,结合独 特的语义分析技术,可满足自然语言处理、转码、抽取、数据抓取等需求,同时,基于文智API 还可以实现搜索、推荐、舆情、挖掘等功能。在机器翻译方面,2017 年腾讯宣布翻译君 上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别+NMT 等技术的应用保 证了边说边翻的速度与精准性。

 京东

京东在人工智能的浪潮中也不甘落后。京东 AI 开放平台基本上由模型定制化平台和在 线服务模块构成,其中在线服务模块包括计算机视觉、语音交互、自然语言处理和机器学习 等。京东 AI 开放平台计划通过建立算法技术、应用场景、数据链间的连接,构建京东 AI 发 展全价值链,实现 AI 能力平台化。

按照京东的规划,NeuHub 平台将作为普惠性开放平台,不同角色均可找到适合自己的 场景,例如用简单代码即可实现对图像质量的分析评估。从业务上说,平台可以支撑科研人 员、算法工程师不断设计新的 AI 能力以满足用户需求,并深耕电商、供应链、物流、金融、 广告等多个领域应用,探索试验医疗、扶贫、政务、养老、教育、文化、体育等多领域应用,聚焦于新技术和行业趋势研究,孵化行业最新落地项目。同时,京东人工智能研究院与南京 大学、斯坦福大学等院校均有合作。

 科大讯飞

科大讯飞股份有限公司成立于 1999 年,是一家专业从事智能语音及语言技术、人工智 能技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企 业。科大讯飞作为中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、 自然语言处理等多项技术上拥有国际领先的成果。是我国以语音技术为产业化方向的“国家863 计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”, 并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标 准。

科大讯飞成立之时就开始在语言和翻译领域布局项目。基于深度神经网络算法上的创新 和突破,科大讯飞在 2014 年国际口语翻译大赛 IWSLT 上获得中英和英中两个翻译方向的 全球第一名;2015 年在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的 成绩。2017 年科大讯飞还推出了多款硬件翻译产品,其中晓译翻译机 1.0plus 将神经网络翻 译系统由在线系统转化为离线系统,实现在没有网络的情况下提供基本的翻译服务。

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

分享:2018自然语言处理研究报告!(附完整版下载)

相关推荐