Site 2019-05-21
图片来源:Pexels
科普作家的职责在于阅读充斥着专业科技术语的期刊论文,然后用平实的语言,让没有科学背景的读者也能理解文章的内容。
目前,麻省理工学院和其他机构的科学团队已经开发出了一种人工智能形式的神经网络,它也可以做科普作家的工作,至少在一定程度上是这样:它可以阅读科学论文并用一两句话给出一个简单的英文概述。
即使在这样有限的程度里,这种神经网络也可以帮助编辑、作家和科学家扫描大量论文从而初步了解文章的内容。除了语言处理,该小组开发的这种神经网络还可以应用于其他领域,比如,机器翻译和语音识别。
这一研究发表在《国际计算机语言学协会学报》,作者为麻省理工学院毕业生Rumen Dangovski 和Li Jing;麻省理工学院物理学教授Marin Soljačić ; 卡塔尔HBKU计算研究所高级科学家Preslav Nakov;麻省理工学院前任奈特科学新闻学者,新科学杂志前任编辑 Mićo Tatalović。
人工智能——从物理学到自然语言
这一研究源于一个不相关的项目。此项目涉及在神经网络基础上研发新的人工智能手段,旨在解决物理力学中某些棘手问题。但是,研究人员很快意识到这种方法也可以用来解决其他困难的计算问题,包括自然语言处理,并且表现可能优于现有的神经网络系统。
Soljačić说:“几年来,我们一直在从事人工智能领域的多方面工作。我们利用人工智能协助做研究,以便更好地研究物理学。随着我们对人工智的了解更加深入,不时就会发现有新的机遇出现在了人工智能领域,就像我们在物理学中知道的东西——某种数学结构或物理中的某个定律。我们注意到,如果使用这项技术,它实际上可以帮助某种特定的人工智能算法。”
这种方法可以用于解决各种特定类型的任务,但并不是全部。他说:“我们不能确保这项技术对所有人工智能都有用,但在某些情况下,我们可以利用物理学中的洞察力来改进给定的人工智能算法。”
一般来说,神经网络是一种模仿人类学习某些新事物方式的尝试:计算机检视许多不同的例子并“了解”其关键的基本模式。这种系统被广泛应用于模式识别,比如学习识别照片中描述的物体。
但一般来说,神经网络很难将长串数据中的信息关联起来,比如在阐述一篇论文时。研究人员表示,现下已经使用了许多用来提高其能力的技巧,包括长短期记忆网络(LSTM)和门控循环单元(GRU),但这些仍然远远低于真正的自然语言处理所需要的。
研究小组提出了一种替代系统,不同于大多传统的神经网络那样,基于矩阵乘法,而是基于在多维空间中旋转的向量。其核心概念在于旋转存储单元(RUM)。
本质上,多维空间中的每一个向量表示文本中的每一个单词——一条特定长度,指向特定方向的线。随后的每一个词都将这个向量向某个方向摆动,在一个理论空间中表示,这个空间最终可以有数千个维度。在这个过程结束时,最终向量或向量集被转换回相应的字符串。
Nakov说:“RUM帮助神经系统很好的完成两件事。RUM帮助他们更好记忆,且更精确地回忆信息。”
开发了RUM系统以帮助解决某些棘手的物理问题如复杂工程材料中的光行为之后,Soljačić 说“我们认识到,这种方法可能应用到的地方之一就是自然语言处理。”他回忆起和Tatalović的一次对话,他指出,这种工具对编辑在决定写哪篇论文时很有用。Tatalović当时正在探索科学新闻中的人工智能,把它作为他的奈特研究项目。
Soljačić说:“所以我们尝试了几种自然语言处理任务,而在其中一种是对文章进行总结,看起来效果不错”。
证据在于阅读
举个例子,同一篇论文,由基于LSTM神经网络得出的摘要和基于RUM得出的摘要截然不同。
LSTM产生了这一高度重复和相当技术性的总结:
“‘贝利斯蛔虫’杀死老鼠,危及阿勒格尼林鼠,并导致如失明或严重后果的疾病。这种被称为“贝利斯蛔虫”的感染会杀死老鼠,危及阿勒格尼木鼠,并导致类似疾病的失明或严重后果。这种被称为“贝利斯蛔虫”的感染杀死了老鼠,已经危及阿勒格尼木鼠。”
同样的论文, RUM系统的总结则更有可读性,并且没有不必要的语句重复:“城市浣熊可能比以前想象的更容易感染人类。7%的采访个体检测出浣熊蛔虫抗体呈阳性。圣巴巴拉90%以上的浣熊都是这种寄生虫的宿主。”
基于RUM神经网络系统已经得到改进,它可以“阅读”整个研究论文,而不只是摘要,从而对论文内容进行总结。研究人员甚至尝试在他们自己的论文研究中使用该系统来描述这些发现——试图总结这篇新闻报道。
这是新的神经网络的总结:研究人员在RUM的旋转单位上开发了一种新的表示流程,一种可以用来解决自然语言处理中广泛的神经革命的循环记忆。
语言可能并不优美,但至少它抓住了关键信息。
没有参与这项研究的英国人工智能公司Deepmind的研究科学家Çağlar Gülçehre,表示这项研究解决了神经网络中的一个重要问题,与在时间或空间上相隔很远的信息片段有关。他说:“在序列预测任务中需要进行长时间的推理,所以这个问题一直是人工智能中非常基本的问题,虽然我认为这篇论文并没有完全解决这个问题,但它在问题回答、文本摘要和联想记忆等长期依赖性任务上取得了不错的效果。”
Gülçehre补充道:“由于论文中所进行的实验和提出的模型在Github上作为开放源代码发布,因此许多研究人员会有兴趣在自己的任务中尝试它。…更具体地说,论文中提出的方法可能对自然语言处理和强化学习产生重大影响,因为长期依赖关系在这些领域非常关键。”
这项研究得到了美国陆军研究所、国家科学基金会、 MIT-SenseTime人工智能联盟和半导体研究公司的支持。该团队还得到了《每日科学》网站的帮助,该网站的文章用于培训本研究中的一些人工智能模型。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”