sffwul 2019-03-18
原文来源 |《1843》
原文作者 | Hal Hodson
译文来源 | 大数据文摘
编译 | 橡树_hiangsug、林安安、小七、张秋玥
这篇文章来自伦敦经济学人集团旗下生活类杂志《1843》的一篇特稿 Mastermind。这个时间点放出这篇文章,多少有点意味深长。3 月本来是 Google 收购 DeepMind 五周年,随着 DeepMind 来到 Google 的 75 名早期员工,包括 DeepMind CEO 自己都可以自行决定去留。但有消息放出,Alphabet 却将创始人的收益发放推迟了两年。
对于 Hassabis 来说,加入谷歌只是自己如意算盘中的一步棋而已。为了实现自己的 AGI 之梦,他一方面需要世界上最有钱公司的雄厚资金和资源支持,另一方面,需要用足够吸引人的研究课题和丰厚待遇留住顶尖人才。他也精心设计了几道防线,保持公司加入谷歌后的独立性。虽然被指责烧钱、傲娇,与谷歌团队矛盾重重,Deepmind 仍然我行我素烧钱追求 AGI,谷歌也没有干涉过他们的业务。然而,随着五年大限临近,谷歌似乎强势起来,比如去年谷歌医疗业务吞并了对 Deepmind Health。
不过,谷歌只是当前难题的一面。本文作者从 Hassabis 成长经历入手,尝试提出了另一个很少被提及的命题:通过游戏实现 AGI,源自 Hassabis 的个人经历(他的生活几乎全被游戏占据),就像他的软件一样,Hassabis 也只能从他的经历中学习,然而,游戏真的是实现 AGI 的有效手段吗?对 AGI 的执念是否最终会让这家公司失去方面?如果 Hassabis 仍然捍卫初衷,那么,如何在被谷歌「吞噬」之前,将 AGI 用于解决现实社会重大问题,成为 他必须得的一场最艰难的比赛。
需要说明的是,《1843》和《经济学人》是两本定位不同的杂志。一方面,《1843》关注的是生活方式,有人说风格类似《纽约客》,发行周期也不同;另一方面,与《经济学人》采取「匿名集体编辑」(因此文章不会出现作者名字)不同,《1843》会在每期版权页列出编辑部成员名单,每篇文章也都有其作者署名。《1843》一部分文章会由《经济学人》记者执笔,一部分文章源自世界各地作家撰写的专稿。本文 Mastermind 作者是《经济学人》科技通讯记者 Hal Hodson。
2010 年 8 月的一个下午,在旧金山湾,一个 34 岁的伦敦人大步流星地走上舞台。他深吸一口气,放松紧绷的神经,露出一个蹩脚的微笑,开口讲道:「今天,我要讲述如何用一个完全不同的方法去构建......」空气突然安静,好像在等待着一个意欲改变世界的人呐喊出自己重大的野心——「AGI」Demis Hassabis 说道。
AGI 指通用型人工智能,是一种拥有与人类相同智力水平或甚至超过人类的理想化计算机程序。AGI 能够出色地完成离散型任务,例如识别照片或翻译语言等,这与我们手机和计算机中所见到过的人工智能(AI)本质上是相同的。
但除此之外,它还会做加减运算、下棋、说法语;可以解物理论文、撰写小说、制定投资策略、陌生人进行愉快的交谈;它甚至可以监测核反应、管理电网和交通流量,毫不费力地在各个领域获得一个又一个的成就——AGI 将使当今最先进的 AI 融合成一个袖珍计算器。
目前,人类是唯一拥有完成所有这些任务能力的智慧生物,但人类的智力受限于身体所能提供的能量;而 AGI 是在计算机上运行的,所以它不会受到这些限制,AGI 的能力上限仅由处理器的数量决定。
AGI 将从完成监测核反应任务开始,按照其一秒阅读上万篇物理论文的速度吸收知识,不久便可以具备发现新能源的能力,而这一速度是人类经过千年进化也比不上的。当人类智能可以被计算机的速度和可扩展性辅助,目前看似不可解决的问题将被轻松解决。
Hassabis 曾向英国报纸《Observer》的记者描述,他希望 AGI 能够掌握「癌症、气象、能源、基因组学、宏观经济和金融系统」等学科知识。
Hassabis 发言的这场大会被称为奇点峰会。根据未来学家的说法,「奇点」指的是由于 AGI 出现引发的结果。由于 AGI 将以高速处理信息,很快它就将变得「聪明绝顶」。自我改善的快速循环将导致机器智能的「爆炸」,使人类窒息于「硅尘」之中。那么这个奇点将带来乌托邦还是地狱?这已经成为了一个宗教信仰一般的问题。
「如何建立人造思维」、「AI 解决老龄化问题」、「取代我们的身体」、「改变生与死的界限」……从会谈的标题来看,这场大会的与会者倾向于将人工智能视为救世主;相比之下,Hassabis 的发言似乎没有那么大的噱头——「基于神经科学的研究方法探究 AGI 架构」。
Hassabis 语速飞快,踱步于讲台和屏幕之间。他身着一件栗色套头衫和一件白色系扣衬衫,像极了一个在校的大学生,但他瘦小的身材下却蕴藏了极高的智慧和无限的力量。Hassabis 解释道:到目前为止,科学家已从两个大方向上探索 AGI。
一条支路可以称为*基于规则的人工智能*。在这一支路上的研究人员试图描述出一个可以像人类一样思考的系统所需的所有规则,并通过编程加以实现。这种方法在 20 世纪 80 年代和 90 年代很流行,但没有产生预期的结果。Hassabis 认为形成人类认知的神经结构太过于精妙,根本无法以这种方式描述。
另一条支路的研究人员试图*数字化复现大脑的神经网络*。这虽然有一定的道理,毕竟脑是人类智慧的所在;但 Hassabis 认为这些研究人员的这一企图就像想要绘制宇宙中的每一颗恒星,也走在了一个歪路上。更根本的问题是,这一研究方法就像试图通过凿开计算机检查晶体管的相互作用来了解 Microsoft Excel 的工作原理,他们所关注的大脑加工水平是错误的。
Hassabis 提出了一个中间立场:AGI 应该从大脑处理信息的宏观方法中获取灵感——而不是物理系统或它在特定情况下的应用规则。换句话说,它应该专注于理解大脑的软件,而不是硬件。
现有如功能性磁共振成像(fMRI)这样的新技术,使得研究人员可以探究人类在特定活动下的大脑活动,说明这一方向具有一定的可行性。他告诉观众,最新的研究表明,大脑会在睡眠期间通过重播经验学习一般原则,研究人员应该尝试模仿这种系统构造 AI。
在演讲幻灯片的右下角出现了一个圆形的蓝色漩涡,紧贴的两个单词 DeepMind 赫然出现在 Logo 之下——这是该公司第一次正式出现在公开场合。
这次发言远远没有看起来那么简单,Hassabis 为了这个邀请,努力了一年之久。他真正的目的是与硅谷亿万富翁彼得·泰尔(Peter Thiel)的一分钟会面,而 Thiel 正是这场会议的赞助方——Hassabis 想要 Thiel 的投资。
Thiel 似乎比 Hassabis 本人对 AGI 更有热情。在 2009 年奇点峰会的一次演讲中,Thiel 曾表示,他对未来最大的恐惧不是机器人起义(他在新西兰内陆地区拥有一个末日避难所,他其实比大多数人做好了充足的准备)。相反,他担心奇点来得太晚,世界更需要新技术来抵御经济衰退。
DeepMind 最终总募资 200 万英镑,其中 Thiel 投资了 140 万英镑。当 Google 以 6 亿美元的价格在 2014 年 1 月收购该公司时,Thiel 和其他早期投资者的投资收益率高达 5,000%。
对于许多创始人来说,这是一个圆满的结局。他们可能会放慢发展速度,甚至退后一步,花更多的时间和钱打交道。但对于 Hassabis 来说,谷歌的收购只是他建造 AGI 帝国的另一步进展。2013 年,他花了很多时间谈判交易的条款,使 DeepMind 独立于 Google 运营,DeepMind 在不失去控股权的前提下获得了 Google 提供的现金流和计算能力。
Hassabis 认为,DeepMind 将是一个混合体:它作为创业公司拥有强大的自我驱动力,又汇集了来自各大顶尖大学的聪明头脑,同时拥有世界上最有价值公司之一的雄厚资金支持——这些因素都将加速 AGI 的到来,解决人类所面临的难题。
Demis Hassabis 于 1976 年出生于伦敦北部,是三个兄弟姐妹中最大的一个。
父亲是生活在塞浦路斯的希腊人,经营着一家玩具店;母亲是生活在新加坡的华人,在英国百货公司约翰·刘易斯工作。他从小便体现出惊人的才能——在他四岁时,旁观了一场父亲和叔叔的国际象棋比赛,从此迷上了国际象棋,没过几周他竟然在棋局上击败了许多成年人,等到他 13 岁时,他已在世界同龄棋手中位居第二。而且在他八岁时,他已经可以在一台计算机上实现自己的代码,仅通过自学掌握了编程技术。
1992 年,Hassabis 比原计划提前两年完成了他的 A-levels 课程。他找到一份在 Bullfrog Productions 的电子游戏编程工作。
Hassabis 编写了一个名为主题公园(Theme Park)的游戏,在这个游戏里,玩家可以设计并运营了一个虚拟游乐园,这个游戏的销量高达 1500 万份。之后这家公司优化并开发了更大规模的虚拟城市游戏,Hassabis 编写的主题公园(Theme Park)成为这个大规模游戏的一部分。
除了编写游戏外,他还很擅长玩游戏,比如国际象棋、拼字游戏、扑克和西洋双陆棋。1995 年,在剑桥大学学习计算机科学时,Hassabis 多次在学生围棋锦标赛击败对手。围棋比国际象棋要复杂得多,玩家只有通过长期训练才能获得足够多的经验进而熟练制定游戏战略。没有人知道 Hassabis 以前是否玩过围棋。
Hassabis 很快称霸了初学者的比赛,然后又击败了经验丰富的围棋专业玩家,那位专业玩家对于自己败给一名 19 岁的新手颇为震惊。剑桥围棋大师 Charles Matthews 看了 Hassabis 的比赛后,决定开始培养他。
Hassabis 一次又一次在围棋比赛上展现他的天赋,渐渐地,他开始好奇计算机是否可以像人类一样通过不断积累的经验来学习。游戏提供了一个现实世界无法比拟的学习环境。游戏虽然是从现实世界中发展而来,但它们可以在没有外界干扰的情况高效进行。与现实世界相比,在游戏里,时间可以过得比现实生活中快很多:几天内,玩家就能组建一个团体,并在几分钟内就能进行战斗。
1997 年的夏天,Hassabis 去日本旅游。那年 5 月,IBM 的 Deep Blue 计算机击败了世界象棋冠军 Garry Kasparov。这是计算机第一次在国际象棋比赛中击败了一位大师。这场比赛引起了全世界的关注,同时还引发了人们对计算机不断发展和潜在威胁的担忧。
Hassabis 遇到日本棋盘游戏大师 Masahiko Fujuwarea,他谈到了一个将战略游戏和人工智能结合起来的想法:有一天他会建立一个计算机程序,这个程序会击败全世界最厉害的人类围棋玩家。20 岁的 Hassabis 认为,他目前的能力还不足以支持他实现自己的梦想,但他心中已经有了一个蓝图。
1998 年,他创办了一个名为 Elixir 的游戏工作室。Hassabis 专注于开发一个名为共和国革命 (Republic: The Revolution) 的政治模拟游戏。当 Hassabis 还在上学时,他告诉他的朋友 Mustafa Suleyman,这个世界需要一个能模拟复杂的社会动态并解决棘手社会问题的模型。现在,他尝试在游戏中这样做。
事实证明,这很难。Elixir 最终发布了这款游戏的精简版,但这款游戏没有火起来。其他类似的游戏也相继失败(比如一个名为 Evil Genius 的邦德恶棍模拟器)。2005 年 4 月,Hassabis 关闭了 Elixir。Matthews 认为,Hassabis 创立公司只是为了获得管理经验。现在,在 Hassabis 开始寻求 AGI 之前,他还不够了解一个至关重要的领域——人类的大脑。
2005 年,Hassabis 在伦敦大学学院(UCL)获得神经科学博士学位。他在博士期间进行了记忆和想象力方面的研究。一篇被引用超过 1000 次的论文表明,健忘症患者很难进行想象,这表明记忆和创造心理图像之间存在联系。为了解决 AGI,Hassabis 正在尝试理解大脑。他的大部分工作最后都回到了一个问题:人类大脑是如何获得并记住概念和知识?
Hassabis 于 2010 年 11 月 15 日正式成立了 DeepMind。
该公司的使命宣言与现在一样——「解决智能(solve intelligence)」,然后用它来解决其他问题。正如 Hassabis 告诉 Singularity Summit 的参会者,这意味着让计算机像人类大脑一样理解并执行任务。
Hassabis 并不觉得科学已经完全了解人类的思想。他认为不能简单地从数百项神经科学研究中提出 AGI 蓝图。他自信地认为以他现在的水平足够支撑他进行 AGI 的研究。然而,事实并非如此。我们对大脑的实际运作方式仍然知之甚少。2018 年,一群澳大利亚研究人员对 Hassabis 的博士论文研究结果提出质疑。他们认为文章的统计数据很糟糕。虽然质疑是针对一篇论文,但也足够表明 DeepMind 还有很长的路要走。
Suleyman 和 Shane Legg 是两个痴迷 AGI 的新西兰人,Hassabis 在伦敦大学学院认识了他们,他们后来成为了 DeepMind 的联合创始人。
Hassabis 很有天赋,DeepMind 在他的带领下发展地越来越快。DeepMind 前运营经理 Ben Faulkner 说:「Hassabis 有点像磁铁,吸引着越来越多的人才。」许多人拒绝了谷歌和 Facebook 等硅谷巨头的 offer,选择进入 DeepMind。也许 DeepMind 最大的成功就是聘请并留下最聪明和最优秀的人才。DeepMind 在布鲁姆斯伯里的罗素广场(Russell Square)里开设了商店,地址在伦敦大学学院(UCL)的马路对面。
DeepMind 所关注的一种机器学习技术——强化学习(reinforcement learning),源于 Hassabis 对游戏和神经科学的双重热爱。这种程序是为收集相关环境信息而建立的,通过重放积累的经验来进行学习,就像 Hassabis 在 Singularity Summit lecture 讲座中给出的人类大脑活动的描述一样。
计算机在强化学习领域还是一片空白。该程序展示了一个虚拟环境,和国际象棋或视频游戏的模拟一样,只有规则是已知的。该程序包含至少一个称为神经网络的组件,它由多层计算结构组成,这些计算结构可以筛选信息并识别特定的特征或策略。
每个层都以不同的抽象级别对环境进行检查。起初,这些网络的成功率很低,但重要的是,它们会不断的积累经验。在尝试不同的策略时,它们会变得越来越复杂,如果它们成功,就会获得奖励,而且一旦犯过一次错误就不会再犯。人工智能的最牛逼的地方在于重复做任务的速度。
2016 年,DeepMind 吸引了全世界的目光,它建立了一个结合强化学习和其他技术的 AI 程序来玩围棋。
这就是广为人知的 AlphaGo。2016 年,AlphaGo 在首尔的五场比赛中击败了世界冠军,全世界都为之震惊。次年,改进版的 AlphaGo 击败了中国围棋冠军。
像 1997 年的 Deep Blue 一样,AlphaGo 改变了人类对自我成就的看法,人类世界的冠军,已经不再是地球上最智慧的存在了。Hassabis 在将他的野心告知了 Fujuwarea 近 20 年后,实现了这一目标。Hassabis 说,这场比赛让他几乎要喜极而泣。传统来说,AlphaGo 的学生回报它的方式就是在一场比赛中击败它,而 Hassabis 就是通过赢得整场比赛来感谢 Matthews 的。
DeepBlue 是通过蛮力和高速运算的优势赢得的胜利,但 AlphaGo 却风格迥异,它看起来就很有艺术性,很具人性化。它的优雅和精致,及其超强的计算力,都表明在疾病治疗和城市管理的项目设计方面,DeepMind 要比其竞争对手更进一步。
Hassabis 坚信 DeepMind 会让这个世界变得更好。
但 AGI 具有很大的不确定性,即使有一天它实现了,我们也不知道它是好是坏,又或者它是否会服从人类的控制?即使它能被控制,那又应该由谁来控制它?
从一开始,Hassabis 就一直试图保护 DeepMind 的独立性,他坚持认为 DeepMind 应该留在伦敦。2014 年,当谷歌要收购该公司时,控制权问题变得更加紧迫。Hassabis 其实不需要向 Google 出售 DeepMind,他手头上有大量现金,而且他还想出了一个商业模式,可以让公司设计游戏来资助研究。
但是,就像许多创始人一样,他没能抵挡谷歌的巨额的资金吸引。Hassabis 并不愿交出他所精心创立的公司,因此*作为交易的一部分,DeepMind 制定了一项计划,来阻止谷歌单方面控制公司的知识产权。*据知情人士透露,在收购前一年,双方签署了一份名为「道德与安全审查协议」的合同。
审核协议规定,作为 DeepMind 的核心技术 AGI,无论其合何时能够研究成功,都将被一个称为道德委员会的理事会掌控。根据同一消息来源,道德委员会不仅仅是谷歌表面的让步,它还为 DeepMind 提供了坚实的法律支持,以控制其最有价值和最危险的技术。
小组成员的名字尚未公开,但另一个与 DeepMind 和 Google 关系密切的消息人士表示,DeepMind 的三位创始人都是委员会成员。(DeepMind 拒绝回答有关审核协议的一系列详细问题,但表示「道德监督和治理从一开始就是我们的首要任务。」)
Hassabis 能决定 DeepMind 命运的还有其他方式,那便是忠诚。无论是过去的老员工还是现在的新员工,都认为 Hassabis 的研究课题是 DeepMind 最大的优势之一。他的课程吸引了世界上数百名最有才华的专家,使其放弃自己的学术研究并心甘情愿地加入他的团队工作。DeepMind 在巴黎、阿尔伯塔和阿姆斯特丹均设有分公司。
许多员工认为与 Hassabis 和 DeepMind 的关系比与谷歌的关系更为亲密,毕竟谷歌收购 DeepMind 就是为了获益。他们都认为只要自己保持个人忠诚度,Hassabis 相比其唯一的股东就拥有较大的权力。对于谷歌来说,通过代理服务的 DeepMind 吸纳 AI 人才比从 Facebook 或 Apple 挖人更好。
DeepMind 有另一个杠杆来源,就是其公众影响力,但这是需要不断的增加曝光的。该公司最擅长的就是这一点,其中 AlphaGo 就是一场公关演出。自被谷歌收购以来,该公司一再引起全球关注。
其中一款火爆的应用产品,可以在眼睛扫描中发现作为黄斑变性指标的图案。另一个软件则学会了使用与 AlphaGo 相似的架构从头开始下棋,并成为了有史以来最伟大的国际象棋选手,仅用了 9 个小时它就可以对抗自己。2018 年 12 月,一项名为 AlphaFold 的计划比其他竞争对手更准确地预测了复合材料清单中蛋白质的三维结构,这很大程度上为治疗帕金森氏症和阿尔茨海默氏症等疾病提供了契机。
DeepMind 对其开发的算法感到特别自豪,该算法可以计算出最有效的方法来给谷歌的数据中心制冷,其数据中心包含大约 250 万台计算机服务器。DeepMind 在 2016 年表示,他们将谷歌的能源费用减少了 40%,但一些内部人士表示,这种吹嘘行为过于夸张。
早在 DeepMind 存在之前,谷歌就一直在使用算法来优化其数据中心。一位谷歌的员工表示「他们只想拥有一些所谓的在 Alphabet 中有价值增值的 Prso」。谷歌的母公司 Alphabet 为这些服务支付了 DeepMind 费用。2017 年,DeepMind 向 Alphabet 公司收取了 5400 万英镑。与 DeepMind 的管理费用相比,这个数字相形见绌。而那一年,它仅在员工身上花费了 2 亿英镑。总的来说,DeepMind 在 2017 年损失了 2.82 亿英镑。
这对现金充裕的巨人来说虽然微不足道,但其他出现赤字的子公司却引起了 Alphabet 的首席财务官 Ruth Porat 的注意。作为互联网服务提供商的谷歌光纤(Google Fibre)就陷入了财务困境,因为其明确表示需要数十年之后才能获得投资回报。私下里,人工智能研究人员都想知道 DeepMind 最后是否会成为独立的公司。
DeepMind 在人工智能推进方面很谨慎,这是其管理战略的一部分,这也向当权者表明了其声誉价值。在谷歌被指控侵犯用户隐私和传播假新闻的时候,这一点特别有价值。
DeepMind 也很幸运能够获得最高级别的认可——Larry Page,他是谷歌两位创始人之一,现在是 Alphabet 的首席执行官。Page 是 Hassabis 唯一的交集可能就是 Page 的父亲 Carl 在 20 世纪 60 年代研究过神经网络。Page 表示在他的职业生涯早期,他就是为了建立一家人工智能公司而建立的谷歌。
DeepMind 对发刊管理的严格控制并不符合公司普遍存在的学术精神。一些研究人员抱怨说,发表他们的作品很困难:他们必须先进行内部审批,然后才能将工作提交给会议和期刊。
DeepMind 认为,它需要谨慎行事,以避免吓跑公众,并破坏 AGI 的前景。但过于紧张可能会开始恶化学术氛围并削弱员工的忠诚度。在谷歌收购之后的第五年,谁控制 DeepMind 的问题显得至关重要。
该公司的创始人和早期员工即将获得分红,他们可以通过收购获得的经济补偿离开(Hassabis 的股票价值约为 1 亿英镑)。但一位与该公司关系密切的消息人士表示,Alphabet 已将创始人的收益发放推迟了两年。鉴于此,Hassabis 不太可能跳槽。他只对金钱感兴趣,因为钱可以帮助他实现自己的人生。但是有些同事已经离开了,自 2019 年初以来,已有三名 AI 工程师离职。
全球最著名的安全工程师之一 Ben Laurie 现已返回其前任雇主谷歌。这个数字虽然很小,但 DeepMind 提供了如此宝贵且令人振奋的工作机会和丰厚的薪酬情况下,任何人其实都应该不会离职的。
直至目前,谷歌都没有过于干涉 DeepMind。但近期的一件事情使人们开始怀疑 DeepMind 还能保持多久的独立性。
DeepMind 一直计划使用 AI 来改善医疗保健。
2016 年 2 月,它成立了一个新部门:DeepMind Health。该部门由该公司的联合创始人之一 Mustafa Suleyman 领导。Suleyman 的母亲曾是一位 NHS 护士。他希望创建一个名为 Streams 的程序,当患者的健康状况恶化时,该程序会警告医生。
DeepMind 从中获得基于程序效果分成的费用。由于这项工作需要访问有关患者的敏感信息,Suleyman 建立了一个由英国医疗保健与科技行业精英组成的独立审查小组(IRP)。DeepMind 这样谨慎行事是非常明智的——英国信息专员随后发现其中一家合作医院违反了处理患者数据的法律。尽管如此,截至 2017 年底,Suleyman 已与四家大型 NHS 医院签署了协议。
2018 年 11 月 8 日,谷歌宣布创建了自己的医疗保健部门 Google Health。五天后,又宣布 DeepMind Health 将被纳入其母公司。
DeepMind 似乎没有收到什么预警。根据信息自由要求(Freedom of Information Act)所得到的信息,它仅提前三天向合作医院发布了变更通知。DeepMind 拒绝透露有关合并的讨论是何时开始的,但表示从通知到发布正式公告如此短的实践是为了保证信息透明度的。
Suleyman 在 2016 年写道:「在任何阶段,患者数据都不会与谷歌的账户、产品或服务相关联。」他的承诺似乎已被打破。(回应 1843 杂志的问题,DeepMind 说「在这个阶段,我们的合同都没有转移到谷歌,而且只有得到我们合伙人的同意后他们才能转移合同。Streams 成为 Google 服务并不意味着患者数据...... 可被用于提供其他 Google 产品或服务。「)
谷歌的吞并激怒了 DeepMind Health 的员工。据知情人员表示,一旦吞并完成,更多员工将计划离开公司。IRP 的一名成员 Mike Bracken 已经离开 Suleyman 了。据多位知情人士透露,Bracken 于 2017 年 12 月辞职,是因为担心该独立审查小组更多的是为了装饰门面而并非真正为了应对信息隐私方面的漏洞。
当 Bracken 问 Suleyman 是否会给小组成员赋予非执行董事的问责制和治理权时,Suleyman 发出了嘲笑。(DeepMind 的一位发言人表示他们「并不记得存在」此事件)。IRP 负责人 Julian Huppert 认为,该小组的管理「比 Bracken 预期更为激进」,因为成员能够公开发言而不受保密义务的约束。
这一事件显示 DeepMind 的外围运营容易受到谷歌的影响。DeepMind 在一份声明中表示,「我们都同意,将多方力量凝聚一起共同努力能够增加资源。」这就引出了一个问题,即 Google 是否会将相同的逻辑应用于 DeepMind 的 AGI 工作。
大体上看,DeepMind 看起来已经取得了很大的进步。它已经搭建了可学习执行超人类任务的软件。Hassabis 经常引用 Breakout,这是 Atari 游戏机上的视频游戏。玩家控制一个可以在屏幕底部水平移动小平板,用它将一个球反弹到悬停在屏幕上方的方块,球撞击到方块时会摧毁它们。当所有块都被摧毁时,玩家获胜。
如果平板没有接到球那么玩家就输了。在没有人工指导的情况下,DeepMind 的程序不仅学会了玩这个游戏,而且还研究了如何将球反弹进方块背后的空间中,利用多次反弹来打破更多的方块。Hassabis 说,这证明了强化学习的力量和 DeepMind 计算机程序超越自然的能力。
这个演示非常令人惊讶,但 Hassabis 还是有所保留。
如果虚拟平板略微往上移动一点点,程序就会失败。DeepMind 程序所学到的技能是如此受限制——它甚至无法对环境的微小变化(比人类走路时对环境产生的微小影响还小)作出反应——至少在没有数千轮强化学习的情况下既是如此。但是现实世界已经内置了这样的应对系统。
对于智能诊断来说,没有两个身体的器官是完全一样的。对于智能机械,没有两个引擎可以以相同的方式进行调整。因此,将在虚拟空间中完善的程序发布到现实世界其实充满了困难。
DeepMind 很少谈到的第二个问题是,虚拟环境中的成功取决于奖励功能的存在:允许程序衡量其进展的信号。该程序学习到,发射小球到方块上方的空间使其多次反弹能够使得分上升。DeepMind 与 AlphaGo 的大部分工作在于构建与这种复杂游戏兼容的奖励功能。
不幸的是,现实世界并不提供如此简单的奖励。
进展很少能够通过单一分数来衡量。即使在存在此类度量的情况下,政治挑战也会使问题复杂化。将气候问题的奖励信号(大气中每百万的二氧化碳颗粒数)与石油公司的奖励信号(股价)相协调,需要同时满足许多有冲突动机的人。奖励信号往往非常弱。在身临其中时,人类大脑基本无法接收任务成功度的直接反馈。
花费了大量算力后,Deepmind 找到了解决的方法。
为学习任何东西,AlphaGo 都需要数千年的人类游戏时间。很多 AI 研究者对此提出质疑:这种解决方案是不可持续的。DeepMind 承认存在这种含糊之处。
它最近专注于星际争霸 2,一款策略计算机游戏。在游戏早期做出的决定会在后期产生影响,这更接近于那些类似许多现实世界任务的错综复杂的延迟反馈。
1 月份,DeepMind 软件在一场演示中击败了一些世界顶级的人类玩家;虽然许多功能依然受到大量限制,但这仍然令人印象深刻。该程序也开始通过遵循人工任务主管的反馈来学习奖励功能。但是,将人类指令置于流程循环中可能会丧失无人计算机处理所带来的规模与速度红利。
DeepMind 和谷歌的现任和前任研究人员(由于严格的保密协议而要求匿名)对于 DeepMind 通过这些方法达到 AGI 的可能性表示怀疑。这些人认为,过于关乎在模拟环境中的优秀表现使得奖励信号问题难以解决。然而,这种方法是 DeepMind 的核心。它有一个内部排行榜,互相竞争团队的程序争夺对虚拟域的掌控。
Hassabis 一直将生活视为一种游戏。他的职业生涯的很大一部分都致力于制作游戏,而他休闲时间的很大一部分都花在了打游戏上。DeepMind 是他选择开发 AGI 的工具。就像他的软件一样,Hassabis 只能从他的经历中学习。
追求 AGI 可能最终会导致失去方向——即使他们已经发明了一些有用的医疗技术,还超越了世界上最伟大的棋盘游戏玩家。这些确实是重大成就,但并非他渴望达到的。但他仍然可以将 AGI 引入现实应用——就在谷歌眼前却远超其掌控。如果 Demis Hassabis 这样做,他将赢得的是最艰难的比赛。