从早忙到晚的闲人 2019-03-02
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,百度公司提供支持,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第二期“自然语言处理”专场已于2019年2月23日下午在中科院举行。谭继伟博士为大家带来报告《基于序列到序列模型的文本摘要及淘宝的实践》。
获取谭博士完整PPT,请后台回复:学术报告
谭继伟,北京大学计算机博士,阿里巴巴高级算法工程师,ACL杰出论文奖获得者。
报告内容:序列到序列模型作为近年来一种有效的文本生成技术,推动了机器翻译、图像文本描述、对话系统等文本生成任务取得了突破性进展,也使得文本摘要研究从早期的抽取原文的模型逐渐向生成新文本的生成式模型发展。这个报告将介绍应用序列到序列模型在文本摘要相关任务上的挑战和我们的探索,包括在文档标题生成、摘要生成以及多文档生成式摘要等任务上的研究工作,以及淘宝算法团队在淘系商品短标题生成上的实践和应用。
基于序列到序列模型的文本摘要及淘宝的实践
谭继伟博士首先对文本摘要进行了简单的概括。根据所开展的任务可以把文本摘要分为单文档摘要、多文档摘要和句子摘要,其中值得注意的是句子摘要,简单来说就是把长句子生成短句子。根据摘要生成的方式又可以把文本摘要分为抽取式摘要和生成式摘要,并且对它们进行了简要的概括。
抽取式方法:
● 抽取已有句子形成摘要。
● 实现简单,能保证句子的可读性。
● 特征工程的方法。
● 内容冗余、句子间连贯性难以保证。
生成式方法:
● 生成新的句子。
● 高质量的理想摘要。
● 句子压缩、重构、融合的方法。
● 自然语言理解和生成一直以来是技术难点。
Seq2seq模型是编码解码框架,最近两年模型有较大的变化,但是总体的思想还是不变的。编码器对输入进行编码,解码器生成相关的内容。Seq2seq模型可以应用到多个任务中,但对于不同的任务需要注意的关键点也不太相同,比如文本摘要和机器翻译,这两个任务之间在形式上是相同的,都是输入文本,输出文本,但在内容上还是不太相同的,对于机器翻译来说,输入和输出的语言是不相同的,但是输入和输出所表达的含义是相同的,对于文本摘要来说,输入和输出的语言是相同的,但输出仅包含输入的部分信息。Seq2seq模型一般适应于短文本的任务,不太适合于长文本的任务。
随后谭继伟博士对新闻标题自动生成、单文档摘要、多文档摘要以及淘宝短标题生成进行了详细介绍,并对它们进行了总结与概括。对于文本摘要的主要挑战是大规模高质量训练数据依赖和端到端学习到的模型不一定满足要求,对于前者提出的可行的解决思路是模型迁移和无平行语料训练,对于后者提出的可行的解决思路是控制原始内容提取和可控解码算法。
获取完整PPT,请后台回复:学术报告