TURBOTX 2019-04-19
点击上方关注,All in AI中国
OpenAI Five是首个在电子竞技比赛中击败世界冠军的人工智能,在上周末的决赛中,它连续两场击败了世界冠军Dota 2团队OG。OpenAI Five和DeepMind的AlphaStar之前都曾在私下击败优秀的职业选手,但都输掉了现场的职业比赛,这也是人工智能首次在现场直播时击败电子竞技专业选手。
在OpenAI Five与人类冠军的最终对决中,我们有两个意外收获:
1、尽管在训练过程只专注于与其他机器人的对决,但OpenAI Five在比赛过程中却展现出惊人的团队协作能力。这意味着人工智能对于人类来说有可能从竞争性变为协作性,未来如果能够对人工智能进行积极的开发,这对人类是有益的。
2、4月18日-4月21日期间,我们将OpenAI Five向全网玩家开放,玩家们无论是作为竞争者还是队友,都有机会与OpenAI Five玩游戏。这次测试最终的目的是回答这样一个问题:OpenAI Five在多大程度上可以被利用或者被打败?这有可能是有史以来最大规模的高强度深层强化学习代理的部署行为,人们可以有意识地与之交互。
为什么是Dota?
我们之所以启动OpenAI Five,是为了解决现有深度强化学习算法无法实现的问题。 原本以为解决这些问题需要大幅度提升工具的性能,甚至需要复杂的算法思想,例如分层强化学习等。但我们惊讶地发现:对于这个问题我们最需要的改进是规模。此研究工作的主要内容是实现和利用这种规模,这并不容易成功。
为了构建OpenAI Five,我们创建了一个名为Rapid的系统,这让我们能够以前所未有的规模运行PPO。最后的结果超出了最高预期,我们生产了一个世界级的Dota机器人,并且它没有受到任何基本性能限制。
目前,RL算法的惊人能力是以大量经验为代价的,这在游戏或模拟环境之外基本不可能实现。但它的局限性可能没有想象中的那么大。例如,我们使用Rapid系统控制机器人的手臂来灵活地调整物体的方向,这首先要完全通过模拟训练,然后在物理机器人上执行。但是我们认为,怎样克服对经验的依赖是RL的下一个挑战。
我们将淘汰作为竞争对手的OpenAI Five,但是已经取得的技术进步与发展将继续推动我们未来的工作。这并不是Dota的终点。我们认为,相对于目前使用的环境,Dota对于RL而言是一个更有趣、更困难的环境。
计算
相比于2018年国际比赛的失利,OpenAI Five上周末的胜利基于一个重大的改变:其训练计算量增加了8倍。在许多项目的早期阶段,我们将通过扩大训练规模来推动项目的发展,但在国际化之后,我们将项目的绝大部分计算用于训练单一的OpenAI Five模型。所以我们增加了计算规模,这是唯一可行的方法:更长的训练时间。
在OpenAI Five 的评分系统上,我们使用了额外的训练计算划分了主要的系统更改(转向单一courier;将 LSTM 的大小增加至 4096 单位;升级至 7.20 和 7.21 补丁版本;以及开始学习 buyback)。该图大致是线性的,这意味着OpenAI Five不断地从额外的计算中获益(这是一个对数记录图,x轴是compute的对数,TrueSkill大致对应于指数级进展)。这张图根据最终游戏规则(1个courier,7.21补丁等)来评估所有机器人,甚至包括那些以老机器人为训练对象的机器人。这些变化的陡坡表明OpenAI Five正在适应这种变化;根据更改的不同,对以往版本的评估结果可能不同。
总的来说,当前版本的OpenAI Five已经消耗了800 petaflop / s-days,并且在10个实时月内经历了大约45,000年的Dota自行游戏训练(从国际上的1.5个实时月份开始,大约经过了10,000年),即OpenAI Five平均每天增加250年的模拟经验。OpenAI Five的总决赛版本与TI版本相比,胜率为99.9%。
迁移学习
尽管模型大小和游戏规则发生了变化(包括一些游戏补丁更新和新功能),但目前版本的OpenAI Five自2018年6月以来一直在不断训练。在每种情况下,我们都能够将模型迁移并进行训练,对其他领域的RL来说,这是一个开放性的挑战。 据我们所知,这是RL代理人第一次进行如此长期的训练课程。
为了实现这一目标,我们继续完善工具,这样我们就可以从经过训练的参数开始,直到可以从根本上实现架构更改。
更多的英雄
可以看到,我们几乎没有放缓5-18名的英雄训练进程,对其他更多的英雄也是如此,在国际化之后,我们花费了大量精力来整合新的英雄。
我们花了几个星期来训练由25个英雄组成的英雄池,让这些英雄达到大约5k MMR(大约95%的Dota玩家水平)。尽管他们还在进步,但其学习速度还不够快,无法在总决赛之前达到职业水平。我们还没来得及调查原因,但推测是模型容量不足、需要匹配扩展的英雄池和需要更多的训练时间让新英雄赶上老英雄等原因。
我们相信这些问题是可以从根本上解决的,而且解决这些问题本身就很有趣。最终版本中有17个英雄,我们删除了巫妖,因为他的能力在Dota 7.20版本中发生了显著的变化。
合作模式
Sheever表示,实际上这感觉不错:“队友冥界亚龙在关键时刻为我献出了生命,他试图帮助我并认为“我肯定她知道自己在做什么”,虽然其实我并不知道。但是可以确信的是,他对队友的信任程度是人类团队合作时很难达到的。”
在总决赛期间,我们展示了OpenAI Five与人类协作的表现。 这场比赛的一方是Blitz和Sheever以及由Five控制的3名代理人,另一方由ODPixel 和Capitalist以及Five控制的3名代理人组成。
OpenAI Five与人类的互动能力提供了一个美好愿景,即人工智能系统协作并增强人类体验。 我们的测试人员报告说,她们感受到了来自机器人队友的支持,并且从这些先进的系统中学到了很多东西,总体来说这是个非常有趣的体验。
值得注意的是,OpenAI Five还展示了zero-shot迁移学习,即让所有英雄都受它自身副本的控制,但是泛化为控制英雄的子集,与人类合作或者对抗。 我们惊讶于这项工作成果。事实上,我们曾考虑过在国际上举行合作赛,但是它还需要进行专门的训练。
Arena
我们将推出OpenAI Five Arena,这是一项公开的实验。实验将让任何人在竞争和合作模式下玩OpenAI Five。 虽然我们知道1v1机器人可以通过巧妙的策略来利用,但我们并不知道OpenAI Five在多大程度上也可以达到这种程度,但我们很高兴邀请社区帮助我们找到答案!
Arena 将于太平洋时间 4 月 18 日下午 6 点开放,并将于 4 月 21 日下午 11:59 关闭。请注册账号,以便我们确保您所在地区有足够的服务器容量!所有比赛的结果将被自动记录到 Arena 的公共排行榜。
非常感谢Dota社区在过去两年中给予我们的所有支持,我们希望Arena也能作为一种回馈方式。
下一步是什么
一旦收集到OpenAI Five Arena的反馈,我们将会发布更多关于OpenAI Five的技术分析。之后,我们将继续在OpenAI中使用dota2环境。在过去的两年里,我们在RL能力方面取得了重要进展。无论是通过更少的数据实现更好的性能,还是真正的人工智能合作,我们认为dota2将继续帮助我们推进未来的研究。
编译出品