yyhhlancelot 2019-04-16
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
自然语言发展史(NLP)
(1) 初创期(1947 ~ 1970):计算机问世(1946)的第二年,英国工程师布斯(A.D.Booth)和美国工程师威弗(W.Weaver)最早提出了利用计算机进行自动翻译。第一代机器翻译系统设计上的粗糙所带来的翻译质量的低劣,最终导致了一些人对机器翻译的研究失去信心。有些人甚至错误地认为机器翻译追求全自动质量目标是不可能实现的。标志着机器翻译的研究就此陷入低谷。
(2) 复苏期(1970 ~ 1976):尽管机器翻译的研究困难重重,但是法国、日本、加拿大等国仍然坚持机器翻译的研究。在20 世纪70 年代初期,机器翻译又出现了复苏的局面。机器翻译的研究者逐渐认识到机器翻译过程本身必须保持原语和译语在语义上的一致,一个好的机器翻译系统应该把原语的语义准确无误地在译语中表现出来。于是,语义分析在机器翻译中越来越受到重视。
(3) 繁荣期(1976 ~至今):繁荣期最突出的特点是机器翻译研究走上了实用化的道路,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,逐渐由实用化步入商业化。第二代机器翻译系统以基于转换的方法为代表,普遍采用以句法分析为主、语义分析为辅的基于规则的方法,采用由抽象的转换表示的分层次实现策略。
相关体系
1、句法语义分析:针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。
关键字提取:抽取目标文本中的主要信息,比如从一条新闻中抽取关键信息。主要是了解是谁、何时、何地、对谁、做了何事、产生了什么结果。涉及实体识别、时间抽取、因果关系抽取等技术。
2、文本挖掘:主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。
3、机器翻译:将输入的源语言文本通过自动翻译转化为另一种语言的文本。机器翻译从最早的基于规则到二十年前的基于统计的方法,再到今天的基于深度学习(编解码)的方法,逐渐形成了一套比较严谨的方法体系。
4、信息检索:对大规模文档进行索引。可简单对文档中的词汇,赋予不同的权重来建立索引,也可以使用算法来建立更深层的索引。查询时,首先对输入进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
5、问答系统:针对某个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过排序机制输出最佳答案。
6、对话系统:系统通过多回合对话,跟用户进行聊天、回答、完成某项任务,主要涉及用户意图识别、通用聊天引擎、问答引擎、对话管理系统等技术。此外,为了提现上下文相关,要具备多轮对话能力。同时,为了提现个性化,对话系统还需要基于用户画像做个性化回复。
7、语料库:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。