zxli0 2019-06-27
点击上方关注,All in AI中国
最新的AI算法正在探测星系的演化、计算量子波函数、发现新的化合物等等。还有什么是事情是科学家不能自动化的呢?
没有人类或一个团队能够完全跟上当今许多物理学和天文学实验所产生的海量信息。他们中的一些人每天都要记录TB的数据,而且洪流只会越来越大。 Square Kilometer Array是一台预定在20世纪20年代中期开启的射电望远镜,每年将产生与整个互联网一样多的数据流量。
“洪流”让许多科学家转向人工智能寻求帮助。人工神经网络(人工神经网络 - 模拟大脑功能的神经元的计算机模拟网络)等人工智能系统可以通过最少的人工输入,就能处理海量数据,突出异常并检测人类永远无法发现的模式。
当然,使用计算机来辅助科学研究大约可以追溯到75年前,而通过手工研究数据以寻找有意义的模式的方法起源于数千年前。但是一些科学家认为,机器学习和人工智能的最新技术代表了一种全新的科学方法。其中一种方法,即生成建模,可以帮助在对观测数据的各种相互矛盾的解释中找出最可信的理论,这种理论只基于数据,并且重要的是,没有任何预编程的知识,可以在所研究的系统中起作用的物理过程。 生成模型的支持者认为它足够新颖,可以被认为是了解宇宙的潜在“第三条道路”。
现在让我们从脑海中抹去关于天体物理学的一切知识。我们在多大程度上可以只使用数据本身重新发现这些知识? Kevin Schawinski
传统上,我们通过观察了解了自然。可以仔细研究下约翰内斯·开普勒(Johannes Kepler)在第谷布拉赫(Tycho Brahe)的行星位置表,并试图辨别出潜在的模式。(他最终推断出行星在椭圆轨道上运动。)科学也通过模拟推进。一位天文学家可能会模拟银河系及其邻近星系仙女座星系的运动,并预测它们将在数十亿年后发生碰撞。观察和模拟都有助于科学家产生假设,然后可以通过进一步的观察进行测试,生成的建模不同于这两种方法。
“它基本上是观察和模拟之间的第三种方法,”天文物理学家和生成模型最热情的支持者之一Kevin Schawinski表示, “这是解决问题的另一种方式。”
一些科学家将生成建模和其他新技术视为传统科学的动力工具。但大多数人都认为人工智能正在产生巨大影响,而且它在科学中的作用只会增长。 Fermi国家加速器实验室的天体物理学家Brian Nord使用人工神经网络来研究宇宙,他们担心“人类科学家没有什么是不可以实现自动化的”这种论断。
一代人的发现
自研究生毕业以来,Schawinski一直以数据驱动的科学为名。在攻读博士学位期间,他面临着根据外观对数千个星系进行分类的任务。因为这份工作没有现成的软件,所以他决定将其进行众包,因此银河动物园公民科学项目诞生了。从2007年开始,普通计算机用户通过记录他们对哪个星系属于哪个类别的最佳猜测来帮助天文学家,多数规则通常导致正确的分类。该项目取得了成功,但是,正如Schawinski指出的那样,人工智能已经让它变得过时了:“如今,具备机器学习和云计算访问背景的才华横溢的科学家可以在一个下午就完成整个工作。”
Schawinski在2016年转向了生成建模的强大新工具。从本质上讲,生成建模会询问在给定条件X的情况下,你会观察到结果Y的可能性有多大。这种方法已被证明是非常有效的。例如,假设您为生成模型提供一组人脸图像,每张脸都标有人的年龄。当计算机程序梳理这些“训练数据”时,它开始在较旧的面部之间建立联系并增加皱纹的可能性。最终,它可以“老化”它所给予的任何面孔,也就是说,它可以预测任何年龄的特定面部可能经历的物理变化。
这些面孔都不是真实的。顶行(A)和左列(B)中的面是由生成对抗网络(GAN)使用真实面部的构建块元素构建的。然后,GAN将A中面部的基本特征(包括其性别、年龄和面部形状)与B中面部的更精细特征(例如头发颜色和眼睛颜色)相结合,以在网格的其余部分中创建所有面部。
最著名的生成建模系统是“生成对抗网络”(GAN)。在充分暴露于训练数据之后,GAN可以修复已经损坏或丢失像素的图像,或者它们可以使模糊的照片清晰。他们学会通过竞争来推断缺失的信息(因此称为“对抗性”):网络的一部分,称为生成器,生成假数据,而第二部分,即鉴别器,试图区分假数据和真实数据。随着程序的运行,两部分都会越来越好。你可能已经看到了最近流传的一些超现实主义的,GAN制作的“面孔”,正如一个标题所说的那样,“极其真实但是实际上并不存在”的形象。
更广泛地说,生成建模采用数据集(通常是图像,但并非总是如此),并将每个数据分解为一组基本的抽象构建块 - 科学家将其称为数据的“潜在空间”。该算法操纵潜在空间的元素,看看它如何影响原始数据,这有助于发现系统中正在运行的物理过程。
潜在空间的概念是抽象的,难以想象,但作为一个粗略的类比,想想当你试图确定人脸的性别时你的大脑可能在做什么。也许你会注意到发型、鼻子形状等,以及你不能轻易用语言表达的图案。计算机程序同样在寻找数据中的显著特征:虽然它不知道小胡子是什么或性别是什么,但是如果它是在数据集上训练的,其中一些图像被标记为“男人”或“女人”,并且其中有些人有一个“小胡子”标签,它会很快推断出一个连接。
在12月发表于《天文学与天体物理学》(Astronomy & Astrophysics)杂志上的一篇论文中,Schawinski和他的苏黎世联邦理工学院的同事Dennis Turp和Ce Zhang使用生成模型来研究星系在演化过程中所经历的物理变化。(他们使用的软件对待潜在空间与生成对抗网络对待它的方式有所不同,因此技术上并不是GAN,尽管类似。)他们的模型创建了人工数据集,作为测试物理过程假设的一种方式。例如,他们询问恒星形成的“淬火” - 形成速率的急剧下降 - 与星系环境密度的增加有什么关系。
对于Schawinski来说,关键问题是有多少关于恒星和星系过程的信息可以单独从数据中挑出来。 “让我们抹去我们所知道的关于天体物理学的一切,”他说。 “我们可以在多大程度上重新发现这些知识,只使用数据本身?”
首先,银河系的图像被缩小到它们的潜伏空间;然后,Schawinski可以调整该空间的一个元素,其方式与星系环境中的特定变化相对应 - 例如,周围环境的密度。然后他可以重新生成银河系,看看出现了什么差异。 “所以现在我有一台假设生成机器,”他解释道, “我可以拍摄一大堆最初处于低密度环境中的星系,并通过这个过程使它们看起来像是在高密度环境中。”Schawinski、Turp和Zhang发现,当星系从低密度到高密度的环境转变,它们的颜色变得更红,并且它们的恒星变得更加集中。 Schawinski认为,这符合现有的关于星系的观测结果。问题是为什么会这样。
Schawinski说,下一步还没有实现自动化:“我必须以一个人类的身份进入,然后说,'好吧,什么样的物理学可以解释这种效应?”对于这个过程,有两个看似合理的解释:也许星系在高密度环境中变得更红,因为它们含有更多的尘埃,或者由于恒星形成的减少而变得更红(换句话说,它们的恒星往往更老)。通过生成模型,两种想法都可以进行测试:潜在空间中与尘埃和恒星形成率相关的元素被改变,以了解它如何影响星系的颜色。 “答案很明确,更红的星系是恒星形成的地方,而不是尘埃变化的星系。所以我们应该赞成这个解释。”
使用生成模型,天体物理学家可以研究星系从宇宙的低密度区域到高密度区域时的变化,以及这些变化导致的物理过程。
该方法与传统模拟有关,但存在重大差异。 Schawinski表示,模拟“基本上是假设驱动的”。 “这种方法的意思是,'我想我知道导致我在系统中看到的所有东西的潜在物理定律是什么。'所以我有一个关于恒星形成的配方,我有暗物质行为的配方,等等。我把所有的假设放在那里,然后让模拟运行起来。然后我问:这看起来像现实吗?“他说,他在生成建模方面所做的是”在某种意义上,与模拟完全相反。我们什么都不知道;我们不想假设任何事情。我们希望数据本身告诉我们可能会发生什么。”
在这样的研究中,成功建模显然并不意味着天文学家和研究生已经成为冗余,但它似乎代表了可以通过人工实现对天体物理学对象和过程的学习程度转变。系统在电子指尖上的功能远远超过庞大的数据库。 “这不是完全自动化的科学,但它表明我们能够至少部分地构建使科学过程自动化的工具。”
生成建模显然是强大的,但它是否真正代表了一种新的科学方法,这一问题值得商榷。对于纽约大学和Flatiron研究所(与Quanta一样,由Simons基金会资助)的宇宙学家David Hogg来说,这项技术令人印象深刻,但最终只是一种从数据中提取模式的非常复杂的方法,这也是天文学家所拥有的几个世纪以来一直在做的事情。换句话说,它是一种先进的观察和分析形式。 Hogg自己的工作,如Schawinski的工作一样,严重依赖AI;他一直在使用神经网络根据恒星的光谱对其进行分类,并使用数据驱动模型推断恒星的其他物理属性。但他认为他的作品以及Schawinski的作品都是久经考验的科学。 “我不认为这是第三种方式,我只是认为我们作为一个社区正在变得越来越复杂,我们如何使用这些数据。特别是,越来越好。但在我看来,我的工作仍完全处于观察模式中。”
勤奋的助手
无论它们在概念上是否具有新颖性,很明显AI和神经网络已经在当代天文学和物理学研究中发挥了关键作用。在海德堡理论研究所,物理学家Kai Polsterer领导着天文信息学小组,这是一个专注于新的,以数据为中心的天体物理学方法的研究小组。最近,他们一直在使用机器学习算法从星系数据集中提取红移信息,这在以前是一项艰巨的任务。
Polsterer认为这些新的基于人工智能的系统是“勤奋的助手”,可以连续数小时梳理数据而不会对工作条件感到厌倦或抱怨。他说,这些系统可以完成所有繁琐乏味的工作,让你“自己做一些很酷而有趣的科学”。
但他们并不完美。Polstere警告说,算法只能做他们训练过的事情。系统对输入是“不可知的”。给它一个星系,软件就可以估计它的红移和它的年龄,但是给同一个系统提供自拍照或腐烂的鱼的图片,它也会输出一个(非常错误的)年龄。他说,最终人类科学家的监督仍然至关重要。
对于他而言,Nord在费米实验室警告说,神经网络不仅要提供结果,而且要提供误差条,就像每个本科生都需要接受训练一样。他说,在科学领域,如果你进行测量却不报告相关误差的估计,那么没有人会认真对待这些结果。
像许多人工智能研究人员一样,Nord也关注神经网络产生的结果的不可穿透性;通常,系统给出一个答案而不提供如何获得结果的清晰图像。
然而,并非每个人都认为缺乏透明度必然是一个问题。法国CEA Saclay理论物理研究所的研究员LenkaZdeborová指出,人类的直觉往往同样难以理解。你看一张照片,立即认出一只猫,但其实你不知道自己的大脑是如何思考的,就像是一个黑匣子一样。
不仅天体物理学家和宇宙学家正在向人工智能推动的数据驱动科学发展。像Perimeter理论物理研究所和安大略滑铁卢大学的Roger Melko这样的量子物理学家已经使用神经网络来解决该领域中一些最棘手和最重要的问题,例如如何表示描述a的数学“波函数”多粒子系统。 AI是必不可少的,因为Melko称之为“维数的指数性诅咒。”也就是说,波函数形式的可能性随着它描述的系统中的粒子数量呈指数增长。难度类似于尝试在象棋或围棋这样的游戏中找出最佳走法:你试图向前看下一个走法,想象你的对手会玩什么,然后选择最好的回应,但每次动作,可能性就会激增。
当然,人工智能系统已经掌握了这两款游戏几十年前的国际象棋以及2016年的围棋,当时称为AlphaGo的AI系统击败了一名顶级人类玩家。 Melko表示,它们同样适用于量子物理学中的问题。
机器的思想
无论Schawinski是否正确地声称他找到了做科学的“第三条道路”,或者像Hogg所说的那样,它只是传统的观察和数据分析,很明显AI正在改变科学发现的味道,而且它是肯定会加速它。那么,人工智能革命将在科学方面走多远?
有时,人们对“机器人科学家”的成就提出了很大的要求。十年前,一位名叫亚当的AI机器人化学家研究了面包酵母的基因组,并研究出哪些基因负责制造某些氨基酸。(亚当通过观察某些基因缺失的酵母菌菌株,并将结果与具有这些基因的菌株的行为进行比较来做到这一点。)《有线》杂志的标题是“机器人通过自身进行科学发现”。
要有创意,你必须讨厌无聊。而且我不认为电脑会觉得无聊。
最近,格拉斯哥大学的化学家Lee Cronin一直在使用机器人随机混合化学物质,看看形成了什么样的新化合物。通过质谱仪、核磁共振仪和红外光谱仪实时监测反应,系统最终学会预测哪种组合最具反应性。克罗宁表示,即使不能进一步发现,机器人系统也可以让化学家将研究速度提高90%左右。
去年,苏黎世联邦理工学院的另一个科学家团队使用神经网络从数据集中推导出物理定律。他们的系统,一种类似于机器人开普勒,从地球上看到的太阳和火星在天空中的位置记录重新发现了太阳系的日心模型,并通过观察碰撞球来计算出动量守恒定律。由于物理定律通常可以不止一种方式表达,研究人员想知道该系统是否可能提供新方法,也许是更简单的方法,来思考已知的定律。
这些都是AI启动科学发现过程的例子,尽管在每种情况下,我们都可以讨论新方法的革命性。也许最具争议的问题是,仅从数据中就能收集到多少信息——在这个数据堆积如山(而且还在不断增加)的时代,这是一个紧迫的问题。无论何时你看到一篇论文或研究都以无模型的方式分析数据时,你可以确定研究的结果只是总结,也许是变换,而不是解释数据。