Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

tjulmy 2018-08-06

点击上方关注，All in AI中国

北京时间 8 月 6 日凌晨，OpenAI的AI系统又跟人类打了三场Dota 2比赛，最终2：1 战胜了人类队伍！

这次代表人类出战的是 Blitz，Cap，Fogged，Merlini 和 MoonMeander，他们是欧美 Dota 圈耳熟能详的主播、解说和前职业选手和现役职业选手，其中 Merlini 更是 Dota 1 的宙斯冠名者，经典的“绕树林三杀”引无数玩家传颂。据 OpenAI 官网介绍，他们的平均水平超过了 99.95% 的 Dota2 玩家，不过5人并没有在一起训练过，默契程度有限。DOTABUFF 的数据显示，他们都进入了超凡入圣天梯排行榜。

与一个多月前的 5V5 镜像英雄 Dota2 比赛不同，这一次，OpenAI 不仅扩大了英雄池，允许双方以随机征召模式挑选英雄（无禁用），而且将 AI 系统的反应速度从 80ms 增加到了 200ms，更接近人类的反应速度，同时还移除了此前多种对人类不利的限制：

相比之下，最大的变化就是新的规则允许选手插眼、隐身（使用隐刀或诡计之雾等）和打 Roshan。这些限制的解除代表着人类可以获得更多的信息和发展空间，运用更多的战术和策略，比如利用刁钻的侦察守卫获得更多的信息，弥补技能衔接失误和反应速度较慢的弱点。

·直播链接：https://www.twitch.tv/openai

·本次比赛全程回放：https://www.twitch.tv/videos/293517383

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

在这场人工智能与人类准职业选手的三场比赛中，人类仅仅赢了一局，在前两局的比赛过程中，基本上处于毫无还手之力的状态。

在游戏中，两个由五名玩家组成的团队被放置在一个方形竞技场的两端，并使用近战和法术来摧毁对手的基地。它是目前最赚钱的电子竞技项目之一，今年最大的锦标赛获得了超过2300万美元的奖池。对于研究人员的软件来说，要想赢得职业选手的青睐，就像一个在迈克尔·乔丹面前灌篮的机器人。

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

游戏是一种可以了解人工智能研究的进展的简单方法：当处于复杂的情况时，人工智能可以击败人类吗？我们理解IBM的深蓝在国际象棋中击败Garry Kasparov意味着什么，而DeepMind的AlphaGo在人类实践和技能的数十年中击败了李世石。除了那些公开的比赛之外，人工智能研究人员已经工作了数十年，他们在玩Atari游戏、跳棋。

并非所有在视频游戏AI上进行的研究都适用于实验室之外，但在竞争之外，OpenAI可以广泛应用。一个例子：用相同的算法，可以设定明天玩Dota2，也可以设定为被教去移动机械手。

正强化

作为教授机器人玩游戏的最流行的方法之一，OpenAI（由Elon Musk和Sam Altman主要创建的AI研究实验室）使用的技术称为强化学习。当你为机器人提供一个目标时，比如收集硬币，并在完成目标时奖励机器人。起初，机器人的动作是完全随机的，直到它意外地弄清楚如何完成任务。机器人用于完成任务的动作会被认为是更好的，并且机器人很有可能在下次尝试时遵循这些操作。经过数百、数千或数百万次尝试，策略就会出现。

例如，OpenAI的Dota 2播放机器人在两周内播放了数百万个游戏。在每场比赛中，机器人的奖励都会从获得积分转移到增加整个团队的分数。正如Quartz之前报道的那样，研究团队称之为“团队精神”。

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

纽约大学人工智能教授朱利安·格里乌斯表示:游戏是人工智能学习的好地方，因为它们是现实世界的类比，但它带有目标性。现实世界中没有有趣的任务，但游戏是完美的，他们会在那里获得奖励，无论你是否获胜，分数如何。

游戏可以无限次播放，它们只是软件，可以由数千个机器人同时播放，以增加他们找到解决方案或策略的速度。

但这种方法的一个缺陷是机器人学会做的事情完全取决于奖励。该算法没有关于视频游戏应该如何工作的概念，所以如果游戏中如果存在错误或故障，机器人将只会做最简单的事情，给予奖励。

在今年的早些时候德国弗莱堡大学的研究人员在训练强化学习算法时发现了这一点。它不是像人类那样学会玩游戏，而是通过跳下舞台一侧引诱敌人来杀死自己，因为他们知道敌人会跟随，这样游戏会将敌人视为被杀，并给予机器人额外的生命和分数，因此这是一个净收益的部分。

机器人也发现了一个小故障，如果它从平台跳到平台，它可能会将游戏分成成千上万的点数。从技术上讲，它正在发挥作用：获得积分。但这并不是真正的学习游戏。

Togelius的工作最近专注于通过随机化机器人每次播放的游戏级别来制作更好的游戏机器人。由于机器人永远不会两次播放同一级别，因此Togelius表示机器人不只是学习找到一个黑客或找出一个策略，他们实际上是在学习在任何情况下完成一项任务。

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

网络架构图

不仅仅是一场比赛

OpenAI的视频游戏追求不仅仅是在游戏中击败专业人士，而且学习如何制定数以千计的小决策来实现更大的目标。一个例子是另一个使用与Dota 2机器人相同的学习系统和算法的OpenAI项目：它可以握住一个块并用它的手指将它操纵成特定的方向。

这两个项目大约是在同一时间启动的，OpenAI技术人员Jonas Schneider表示，当Dota 2团队去年在比赛中击败人类专业人员时，机器人团队意识到强化学习系统的潜力。

“我们基本上使用了与Dota实验完全相同的代码达到了相同的性能水平，在短短几个星期内，我们与之前几个月试图建立的产品达到了同等的水平。”

这些实验使用的是由OpenAI构建的程序Rapid来运行，该程序协调了数千个处理器，这些处理器同时运行数百个强化学习算法。每一种算法都为机器人提供动力，机器人通过游戏或模拟移动手，然后在试验结束时将其学到的内容与其他机器人同步。

利用比普通笔记本电脑高出数千倍的计算能力，机械手已经能够实现令人印象深刻的灵活性，而无需人类编码每个手指应该如何移动。

视频加载中...

虽然OpenAI使用类似的代码来训练其游戏AI和机器人，但一个重要的区别是他们每个人都在学习如何分别完成他们的任务。如果你试图让Dota 2机器人控制器成为一只手，它根本就无法做到：算法足够通用，可以学习多种技能，但仍然只有那些技能。

“我们还没有看到很多在游戏中训练然后就能转移到现实世界的东西，”Togeliu表示， “但我们所看到的是，为玩游戏而发明的方法转移到现实世界。”

OpenAI的快速强化学习系统并不是第一种从视频游戏开发并转化为现实世界的技术。 Togelius表示，蒙特卡罗树搜索是一种最初为10年前玩游戏而开发的算法，现在用于计划和优化等任务。欧洲航天局使用相同的算法来计划太空探测器的行星际轨迹，它也是DeepMind的AlphaGo算法的支柱，该算法在2016年击败了世界冠军李世石。

对于OpenAI的机器人团队，Dota 2似乎证明了这种技术可以用于未来更复杂的工作。 Dota 2系统使用的计算能力是机器人手20倍以上，训练时间为两周而不是机器人的双手，它需要两天，这意味着机器人团队有空间去解决可能需要更多时间问题学习。

施奈德说：“我们对现有算法能够取得多大的进展感到惊讶，因此我们希望在某种程度上Dota将成为视频里的游戏的里程碑。” “很明显，如果像这样复杂的游戏可以通过强化学习来解决，那将是强化学习和视频游戏的终极考验。”

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

本文由部分内容整理自网络，侵删

: tjulmy

相关推荐

研究员准备让智能设备用AI来判断你的声音来自哪里

虽然这个想法让隐私保护主义者感到害怕，但智能音箱的开发者们正在努力让他们的设备在没有听到用户唤醒词的情况下也能启动。我们知道谷歌已经在研究这项技术，但现在，卡内基梅隆大学那边的人也在跟进，研究人员已经开发出了一种机器学习模型，利用人工智能的力量精确判断某人

机器之心 0喜欢 / 0评论 2020-11-06

融合与发展：数据科学研究院RONG研究员首次工作汇报会圆满结束

2019年11月08日上午，数据科学研究院RONG研究员工作汇报会首次会议于双清大厦成功举办。数据院院长俞士纶、执行副院长韩亦舜与来自于不同领域的五位RONG研究员相互交流，共同探讨，就数据挖掘、传统行业的工业互联网应用、大数据创新方法、医疗大数据、交通大

shizhaofan 0喜欢 / 0评论 2019-11-12

格拉斯哥大学研究员开发监督机器人，督促小朋友洗手预防疾病

10月15日是全球洗手日。虽然早已养成了洗手的习惯，但即使是现在，对很多儿童来说，洗手仍然是一件奢侈的事。根据调查，全球每年大概1300名儿童因为腹泻和呼吸道感染丧生，而用肥皂洗手就能有效预防40%相关疾病。除此之外，由于发展中国家存在的水和卫生的疾病，全

wxljjfcyl 0喜欢 / 0评论 2019-11-05

谷歌高级研究员Nature发文：避开机器学习三大「坑」

算法分析已经成为科学研究的重要方法，生物学家、高能物理学家、病理学家等许多领域的研究者都正在广泛采用机器学习算法来发现新配方和新方法，但是谷歌 Accelerated Science 团队高级研究员 Patrick Riley 近日在 Nature 上

sayhaha 0喜欢 / 0评论 2019-08-01

阿里巴巴研究员刘国华：阿里巴巴智能运维体系建设

摘要：本文整理自刘国华在2018年开放数据中心峰会开幕式上的演讲。在演讲中，刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值：数据驱动决策、全局优化和变革。基于智能化，阿里巴巴重塑了运维体系。通过智能化建设，基础设施的交付效率提升了247%，需求预

bengsa 0喜欢 / 0评论 2019-06-28

抢人大战中，那些选择留在高校的AI研究员们

AI人才需求的不断增长，为科研人员在学术机构和商业公司间跨界工作创造机会。加拿大蒙特利尔的软件提供商Element AI在4月份发布的一份报告显示，在过去一年中， LinkedIn上具有人工智能专业知识的博士毕业生人数增加了66％。在顶级机器学习会议上发

红色石头 0喜欢 / 0评论 2019-05-20

微软资深研究员详解基于交错组卷积的高效DNN｜公开课笔记

卷积神经网络在近几年获得了跨越式的发展，虽然它们在诸如图像识别任务上的效果越来越好，但是随之而来的则是模型复杂度的不断提升。越来越深、越来越复杂的卷积神经网络需要大量存储与计算资源，因此设计高效的卷积神经网络是非常重要和基础的问题，而消除卷积的冗余性是该问

FromZerotoHero 0喜欢 / 0评论 2018-07-11

微软资深研究员详解基于交错组卷积的高效DNN

卷积神经网络在近几年获得了跨越式的发展，虽然它们在诸如图像识别任务上的效果越来越好，但是随之而来的则是模型复杂度的不断提升。越来越深、越来越复杂的卷积神经网络需要大量存储与计算资源，因此设计高效的卷积神经网络是非常重要和基础的问题，而消除卷积的冗余性是该问

yuyin 0喜欢 / 0评论 2018-07-11

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

为你分享Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出的强化学习中要注意的10大要点。近日，在南非斯泰伦博斯举行的Deep Learning Indaba活动上，谷歌DeepMind强化学习研究团队负责人、Alpha

小白将 0喜欢 / 0评论 2018-10-01

CVPR PAMI青年研究员奖Andreas Geiger：自动驾驶中的计算机视觉

机器之心原创,作者：邱陆陆。在今年 6 月召开的 CVPR2018 上，德国图宾根大学及马克斯·普朗克研究所自动视觉组负责人 Andreas Geiger 教授摘得了 PAMI Young Researcher Award，该奖项颁发给 7 年内获得博士学

herrkun 0喜欢 / 0评论 2018-08-03

前微软亚洲研究院资深研究员梅涛博士加盟京东

计算机视觉和多媒体领域的杰出科学家梅涛博士日前正式加入京东，出任京东集团 AI 平台与研究部 AI 研究院副院长，并担任计算机视觉与多媒体实验室主任。他将负责创建计算机视觉与多媒体实验室，以及京东 AI 平台与研究部在该领域的研究、创新和应用，向该部门负责

ibelieveican0 0喜欢 / 0评论 2018-01-25

资讯｜前微软首席研究员俞栋加盟腾讯AI Lab，担任副主任

昨天，腾讯正式宣布张潼出任腾讯 AI Lab 实验室主任。同时，前微软研究院的首席研究员、顶级语音专家俞栋也已加入了腾讯 AI Lab，担任副主任一职。俞栋是语音识别和深度学习领域的著名专家。此前于 3 月 18 日西雅图举办的 AI Next Tech

lengzhao 0喜欢 / 0评论 2017-03-24

刚刚结束的ICLR上，谷歌研究员再批当前AI炼金术通病

在刚过去的ICLR会议中，谷歌人工智能研究员Ali Rahimi批评了整个机器学习行业对经验法则、试错法和迷信的过分依赖。去年12月，谷歌公司的人工智能研究员Ali Rahimi在NIPS大会的演讲中批判了自己的研究领域，他说，计算机通过尝试和错误进行学习

NeverStop 0喜欢 / 0评论 2018-05-07

谷歌研究员再批：机器学习慢慢变成新时代的炼金术

最近，谷歌的AI研究人员、 "Test of Time Award"得主Ali Rahimi指出，计算机通过尝试错误法进行学习的机器学习算法已经成为“炼金术”的一种形式。Rahimi说，如果不深入了解构建和训练新算法所需的基本工具，研究

无风而起 0喜欢 / 0评论 2018-05-10

阿里搜索事业部研究员徐盈辉：剖析阿里背后的强化学习技术

2013 年，DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章，一举惊艳了学术界。2016 年 1 月，AlphaGo 在一场围棋大赛中击败李世乭吸引全世界的目光，其背后的强大武器正是深度强化学习技术。同年年底，2016NIPS 最佳论文

atbjss 0喜欢 / 0评论 2017-03-14

为什么谷歌、Facebook的AI研究员都坐在CEO身边？

如果你想了解一家科技公司的发展重点，可以先看看这家公司的座位表。在谷歌的硅谷总部，首席执行官Sundar Pichai与谷歌大脑在同一楼层工作。即使是位于盐湖城地区的在线零售商Overstock.com，现在也组建了一支名为OLabs的小型研发团队。通过O

qpzmal 0喜欢 / 0评论 2018-03-08

阿里云智能视觉研究员华先胜：大数据智能分析、识别和搜索

在这些场景中，对图像/视频数据进行智能分析、挖掘其中的内容以及对其中的事件进行实时的分析并非易事。视觉智能发展朝向两个方向：云上智能和端上智能。云上的智能是指复杂的计算是在云上完成；端上智能则是在终端完成的，例如手机或摄像机本身自带的计算能力、自动驾驶等等

rfunnyyoda 0喜欢 / 0评论 2016-09-21

轮胎后的大脑--斯坦福大学AI研究员正在教会汽车思考

Drive.ai是一个由斯坦福大学人工智能研究员创建的备受关注的创业公司，这些研究员们想要教会汽车思考，于是公布了一个由软件驱动，可将传统汽车转变成无人驾驶汽车的配套工具包发布计划，由此使其研究成果商业化。但是，驾驶AI并没有打算披露此系统的价格和上市时间

zhujianing 0喜欢 / 0评论 2016-09-12

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（PPT）

本文是DeepMind高级研究科学家Balaji Lakshminarayanan在SF AI Meetup上演讲的slides，总结了他以及 Ian Goodfellow，Shakir Mohamed, Mihaela Rosca等人最新的GAN工作。G

AndyViky 0喜欢 / 0评论 2018-02-05

腾讯安全平台部专家研究员胡育辉：千亿黑产背后的破局之道

背景：5月23-24日，以“焕启”为主题的腾讯“云+未来”峰会再广州召开，广东省各级政府机构领导、海内外业内学术专家、合作伙伴及行业大咖悉数到场，共话云计算与行业数字化新发展。腾讯安全平台部专家研究员胡育辉，在24日下午的安全分论坛上，就打击黑产等业务安全

StubbornAnt 0喜欢 / 0评论 2018-05-30

F-Secure研究员发现35年历史的SCP客户端漏洞

昨天，F-Secure的研究员Harry Sintonen发现了与SCP客户端相关的35年漏洞，该客户端使用Secure Shell在网络上的主机之间进行数据传输。这些SCP客户端容易受到恶意SCP服务器的影响，该服务器可能会对目标目录执行未经授权的更改。

iNEEDYoU 0喜欢 / 0评论 2019-01-16

谷歌研究员：如果你有良心，不要在AI工作

谷歌研究员FranoisChollet认为，任何有良知的人都不应该在AI中为Facebook工作。虽然记住谷歌是Facebook的竞争对手，并且对批评本身并不陌生，但Chollet提出了一些关于AI及其影响 - 或者说是利用 - 人们使用的道德问题的有趣观

jwwxuxu 0喜欢 / 0评论 2018-04-11

2017CCAI专访丨当机器学习遇见“众包”——访微软雷德蒙研究院首席研究员周登勇

7 月 22 - 23 日，由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办，CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会将在杭州国际会议中心盛大开幕。在大会第二天上午的 Keynote 中，美国微软雷德蒙研究院首席研究员

flydreamforever 0喜欢 / 0评论 2017-07-12

MIT研究员设计出微型芯片：可打造指甲盖大小无人机

6月21日消息，据VentureBeat报道，得益于麻省理工学院的研究，未来的无人机可能只有指甲盖大小。麻省理工学院电气工程和计算机科学系的一个团队设计出了一个只有20平方毫米的微型计算机芯片，该芯片可以实时处理惯性和相机图像，后两者是无人机飞行的两个关

BitTigerio 0喜欢 / 0评论 2018-06-21

剑桥分析背后研究员：扎克伯格是个伪君子

安科科技讯北京时间4月24日早间消息，近期卷入Facebook数据泄露丑闻的数据科学家亚历山大·科根近期表示，马克·扎克伯格是个“彻彻底底的”伪君子。本月早些时候，Facebook CEO扎克伯格在向美国国会作证时表示，科根的行为是不可接受的。科根表示

董老师在硅谷 0喜欢 / 0评论 2018-04-24