DOTA2获胜AI比阿尔法狗厉害？还是媒体和马斯克联合炒作？

大数据文摘作品，转载要求见文末

编译 | 姜范波 Aileen

这个周末的科技圈再次被“AI恐惧”刷屏，这次打败人类的AI来自Elon Musk的OpenAI。昨天凌晨的DOTA2人机大战中，顶级人类玩家Danylo "Dendi" Ishutin被AI完败。

到底这次人机大战意义何在？这次在一对一DOTA2中打败Dendi到底比AlphaGo更难还是更容易？众说纷纭中，我们认为前谷歌大脑和斯坦福研究员Denny Britz的这篇评论文章相对中肯和理性，也得到了不少学者的力挺："这个问题实际上比击败人类围棋冠军容易得多。我们并没有在AI中突然进步。"

DOTA2获胜AI比阿尔法狗厉害？还是媒体和马斯克联合炒作？

DOTA界的大神们在昨天受到了暴击，在堪称“DOTA圈世界杯“的T17邀请赛中，顶级人类选手被OpenAI训练了两周的AI打败。各类如"攻陷DOTA2","完虐人类“的字眼纷纷出现，不免让人想起之前AlphaGo大战柯洁的盛况。

Elon Musk本人也在推特上强推了这次人机大战，他认为DOTA2比围棋复杂很多，所以这次获胜的机器人也比AlphaGo要厉害。当然，马斯克也没忘记再次提起AI和所有事物一样需要被监管。重提几个星期前和众多技术大佬吵得沸沸扬扬的旧梗，让不少人怀疑这是为了媒体炒作吸引眼球。

DOTA2获胜AI比阿尔法狗厉害？还是媒体和马斯克联合炒作？

前谷歌大脑和斯坦福研究员Denny Britz就这件事发表了自己的看法：

“这是一个令人赞叹的成就，但也不是媒体想让你相信的AI大突破。”

“过度炒作AI进展真的是危险的，Elon Musk的推特会误导大家。”

DOTA2获胜AI比阿尔法狗厉害？还是媒体和马斯克联合炒作？

Denny Britz相对客观的罗列了这件事的成就和浮夸之处，以下是全文的编译：

当我看到今天OpenAI的DOTA2机器人在国际（The International）电竞大赛上击败人类玩家的消息时，我兴奋得跳起来。

该锦标赛的奖金池超过了二千四百万美元，作为一名电竞运动迷，我虽然从来没有玩过DOTA 2，但是我经常在线上观看其他电竞比赛，高中时还是半专业选手。但更重要的是，像DOTA这样的多人在线战术竞技游戏（MOBA），以及“星际争霸2”这样的实时战略（RTS）游戏，被视为超越了当前人工智能技术的能力。这些游戏需要长期的战略决策，多人合作，并且相比AI技术在过去几十年中“解决”了的国际象棋，围棋或扑克类游戏，具有明显更复杂的状态和动作空间。 DeepMind已经在星际争霸2上工作了一段时间，几天前发布了他们的研究环境。到目前为止，研究人员还没有取得重大突破。据认为，我们仍需要至少1 - 2年才能在星际争霸2上打败人类。

这就是为什么OpenAI今天这条消息如此令人震惊。怎么会这样呢？难道我错过了最近AI发展的重大突破？当我开始更多地了解DOTA 2机器人正在做什么，它是如何训练的，以及它的游戏环境后，我得出的结论是，这是一个令人赞叹的成就，但也不是媒体想让你相信的AI大突破。

本文的目的是：对于哪些才是真正的新东西，我愿意提供一个理性清醒的解释。过度炒作AI进展真的是危险的，比如Elon Musk昨天误导人的推特（参见文章开头的截屏）。

首先我要说明，炒作或不正确的假设并非OpenAI研究人员的错误， OpenAI传统上一向对其研究贡献的局限性非常直观明了，我相信在他们今天也一如既往。 OpenAI还没有公布他们方案的技术细节，所以对于外行而言，很容易就得出错误的结论。

我们先来看看DOTA 2机器人解决的问题实际上有多困难。跟AlphaGo相比怎么样？

1对1与5对5是没有可比性的。在DOTA 2的一个基本游戏中，一队5名选手对阵另外5人。这些游戏需要高级战略制定，团队沟通和合作，通常需要45分钟左右的时间。而1对1的游戏受到更多限制，两名选手基本上沿着单线行驶，并试图杀死对方，通常在数分钟内结束。在1对1中击败对手需要机械技能和短期战术，但没有任何对当前的AI技术来说具有挑战性的需求，如长期规划或团队协调。事实上，你需要采取的有效操作数量少于围棋游戏。有效的状态空间（玩家对游戏中当前局面的掌控），如果以比较聪明的方式表示，应该比围棋还要小。

机器人可以访问更多信息：OpenAI机器人（很可能）构建在游戏机器人API之上，可以访问人类无法访问的各种信息。即使OpenAI研究人员限制其访问某些类型的信息，机器人仍然可以访问比人类更准确的信息。例如，某项技能只能在一定范围内击中对手，而人类玩家必须观看屏幕并且估计当前与对手的距离，这需要练习。机器人知道确切的距离，并可立即决定是否使用技能。获得各种精确的数字信息是一个很大的优势。事实上，在游戏过程中，可以看到机器人数次在最大距离上使用技能。

反应时间：机器人可以立即反应，人类却不能。再加上上述的信息优势，这是另一大优势。例如，一旦对手超出特定技能范围，机器人可以立即取消某项技能的使用。

学习使用一个特定的角色：游戏中有100个不同的角色，具有不同的天赋能力和优势。机器人学习玩的唯一的角色是Shadow Fiend，通常会立即进行攻击（而不是在一段时间内持续的更复杂的技能），作为机器人，得益于信息优势和快速的反应时间。

鉴于1对1主要是机械技能的游戏，AI击败人类玩家并不奇怪。对OpenAI而言，由于环境受到严格限制，（很大可能）可用的操作也受到限制，而且很少或者完全没有进行长期规划或协调的需要，我得出的结论是，这个问题实际上比击败人类围棋冠军容易得多。我们并没有在AI中突然进步。它的成功，是因为我们的研究人员用正确的方式，聪明地设置了需解决的问题，把当前技术用到极致。据说机器人的训练时间大概是2周左右，也说明真相确实如此。 AlphaGo需要在Google的GPU集群上进行数月高强度的大规模培训。从那以后我们取得了一些研究进展，但并没有将计算要求降低一个数量级。

现在，批评够多啦。新闻炒作可能有点过度，但不妨碍这次人机大战的胜利依然很酷的事实。显然，大量具有挑战性的工程和合作建设才实现这一切。下面这次DOTA机器人很厉害的地方：

完全通过自我训练：这个机器人不需要任何训练数据，它也不会从人类的演示中学习。它完全随机开始，并且不断地跟自己对练。虽然这种技术并不是什么新鲜事物，但令人惊讶的是（至少对我来说），机器人自己就学习到了人们使用的技术，如Reddit和Ycombinator上评论中所提出的。我不太了解DOTA 2，所以无法判断这一点，但是我觉得非常酷。机器人可能还有其他人类不知道的技术。这与我们在AlphaGo中看到的类似，人类玩家开始从其非常规的动作中学习，并调整了自己的游戏方式。（有兴趣的读者可以阅读这两个论坛的讨论： https://news.ycombinator.com/item?id=14996448和https://www.reddit.com/r/MachineLearning/comments/6t58ks/n_openai_bot_beat_best_dota_2_players_in_1v1_at/dli3zpp/）
AI +电竞需要迈出的一大步：在具有挑战性的环境（如DOTA 2和Starcraft 2）上来测试新的AI技术非常重要。如果我们可以说服电子竞技社区和游戏发行商，我们可以通过将AI技术应用于游戏来提供价值，我们可以期待得到大力支持，这会加速AI进展。
部分可观察的环境：虽然OpenAI研究人员如何用API处理这个问题的细节尚不清楚，但是人类玩家只会看到屏幕上的内容，并且可能在视角上会有一些限制，比如上坡下坡的树林阴影。这意味着，与围棋或象棋或Atari（更像扑克）这样的游戏不同，我们处于部分可观察的环境中 - 我们无法访问有关当前游戏状态的完整信息。这些问题通常难以解决，是急需更多进展的研究领域。话虽如此，目前还不清楚1v1 DOTA2比赛的部分可观察性是多么重要 - 这里也没有太多可以策划的。

所有这些中，最重要的是，我非常期待可以看到OpenAI的技术报告，看看他们到底是怎么搭建这个系统的。

参考文章：http://www.wildml.com/2017/08/hype-or-not-some-perspective-on-openais-dota-2-bot/

DOTA2获胜AI比阿尔法狗厉害？还是媒体和马斯克联合炒作？

qpzmal

相关推荐

人工智能要进军电子竞技了？

Dota 2被攻陷！OpenAI 人工智能5V5模式击败人类玩家

人工智能要进军电子竞技了？

一起开黑！OpenAI Five Arena向所有玩家开放

资深玩家怼马斯克：获胜Bot仅掌握了Dota 2 的皮毛

OpenAI在Dota 2游戏中虽败犹荣

经过 180 年的训练，OpenAI 在 DOTA 2 上完虐人类！

电竞产业异军突起打Dota比打温网更挣钱

王者荣耀就一定是五个人的游戏？还记不记得DOTA的solo局

Dota职业选手谢彬DD承认《绝地求生》开挂: 我自己也痛恨开挂的

凭什么说dota的平衡性远胜于lol?

DOTA2: 韩国DOTA 还在坚持! 虽然一直被打哭!

dota一姐成功转型冷冷攻占斗鱼绝地求生一姐宝座

一个老dota玩家的第一局dota2

人工智能先别高兴 1v1的DotA比赛其实比围棋简单

王者荣耀凭什么成为国民手游？答案都在这里

dota3什么时候出 dota3正式上线时间介绍