自学3天100:0碾压旧版后 新版AlphaGo还能做什么?

学习编程 2017-11-29

自学3天100:0碾压旧版后 新版AlphaGo还能做什么?

AlphaGo宣布退役后,谷歌DeepMind在围棋上的探索并没有停止。

今年5月的乌镇大会的“人机对局”中,中国棋手、世界冠军柯洁9段以0:3不敌AlphaGo。在随后几天AlphaGo和世界顶尖围棋选手的群战后,世界冠军时越这样评价AlphaGo和人类的对弈:“这是我前所未见的,就像是我想象中来自遥远未来的棋局一样。”

DeepMind联合创始人兼 CEO Demis Hassabis在赛后宣布,AlphaGo将永久退出竞技舞台,不再进行比赛。不过他表示:“我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所取得的一系列进展,以及应用在其他更全面领域中的可能性。我们希望更多的开发者能够接过接力棒,利用这些全新的进展开发出属于自己的强大围棋程序。”

10月19日,Hassabis兑现了他的承诺。DeepMind如约在《自然》杂志(Nature)上发表论文。在这篇名为《Mastering the game of Go without human knowledge》(《不使用人类知识掌握围棋》)的论文中,DeepMind展示了他们更强大的新版本围棋程序AlphaGo Zero,经过3天的自我学习,以100:0的比分完胜对阵李世石版AlphaGo。这验证了即使在像围棋这样最具挑战性的领域,人工智能也可以通过纯强化学习的方法自我完善达到目的。

这令曾和AlphaGo交过手的人类棋手柯洁在微博感慨:“一个纯净、纯粹自我学习的alphago是最强的。。。对于alphago的自我进步来讲。。。人类太多余了。”

自学3天100:0碾压旧版后 新版AlphaGo还能做什么?

不止于围棋,AlphaGo的研发团队已经开始把精力投入到其它重大挑战中,研发出更为高级的通用算法,帮助科学家们解决最复杂的问题,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。

从强化学习走向自学习

在威盛电子语音交互部门总监张国峰眼里:“谷歌DeepMind已经把人工智能做到了极致。但是即使是最新版本的AlphaGo,也仍然是基于强化学习,它的先进之处是过去需要人类给他喂数据,做大量训练,现在不用了,机器自己就能基于经验做决策,这是一大进步。下一步就是要发展纯的自主学习了。”

人工智能的长期目标是通过后天的自主学习,在一个具有挑战性的领域创造出超越人类的精通程度学习的算法。最新的论文显示,AlphaGo Zero可以仅基于强化学习的算法,而不需要人类提供数据、指导和规则。这意味着AlphaGo已经能成为自己的老师,这一神经网络被训练用于预测AlphaGo自己的落子选择,提高了搜索算法的强度,使得落子质量更高,具有更强的自我对弈迭代能力。

此前AlphaGo已经完成了百万次高水准的自我训练。相比之前使用人类对弈的数据,新版本的算法训练时间更短,仅用3天时间就达到了击败李世石的AlphaGo Lee的水平,21天达到了之前击败柯洁的AlphaGo Master的水平。

而AlphaGo Zero不仅发现了人类数千年来已有的许多围棋策略,还设计了人类玩家以前未知的的策略。在3天内,也就是AlphaGo Zero在击败此前版本的AlphaGo之前,曾进行过490万次自我对弈练习。 相比之下,此前版本的AlphaGo的训练时间长达数月之久。

“从一块白板(blank slate)开始,我们的新程序AlphaGo Zero表现惊人,并以100:0击败了此前版本的Alpha Go。而且无需使用人类专家下棋的数据进行监督学习。”DeepMind AlphaGo Zero项目领导人David Silver说道。

张国峰向第一财经记者解释道:“类似AlphaGo的算法,只要在执行中能够得到对输出结果优劣反馈的系统,都可以用强化学习。”他还表示,除了围棋游戏,强化学习还能用于射击类游戏,以及贪吃蛇等游戏;另外生产流水线上的机器人训练,如果使用强化学习,就可以很快让机器人找到最佳移动路径;股票交易也可以使用类似的训练方法。

解决更复杂的科学难题

在谈到AlphaGo的项目时,此前谷歌大中华区总裁石博盟告诉第一财经记者,原本谷歌认为在人机对弈的时候,围棋选手可能会有压力,但是他们非常高兴地看到,包括柯洁在内的围棋选手对于人工智能是一种接受和拥抱的态度。

“他们将人工智能看作是一种能够帮助他们揭示围棋的奥妙、突破思维局限的途径。”石博盟在接受第一财经记者专访时说道,“AlphaGo所代表的人工智能实际上帮助围棋选手在对弈的过程当中发现了下围棋新新招数和新思路,他们把这些作为个人知识的补充和视野扩展的方式,我觉得这是最完美的一个结合。”

DeepMind的论文还显示,过去的几个月中,AlphaGo的研发团队已经开始把精力投入到其它重大挑战中,研发出更为高级的通用算法,帮助科学家们解决最复杂的问题,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。DeepMind称,如果人工智能在上述领域发现新的知识和策略,它的突破将十分可观。

毫无疑问,人工智能拥有探索新知识的潜能,这点将让全人类受益。DeepMind也强调,AlphaGo与人类的关系绝不是对立的,反而是能够启发人类把这些新发现应用到其他新领域,以解决当前我们正面临的一些最重要最迫切的科学挑战。

Hassabis表示,AlphaGo的项目能够为社会的基础科研提供有关思维模式的解决方案。他还称,AlphaGo团队已经在做一些能够把这项技术应用到其它领域的项目。

他举例称,AlphaGo会成为一个从复杂数据中进行搜索提炼的机器。他解释道:“由于AlphaGo Zero并不仅仅是为了理解围棋而设计的,因此它可以发现其它领域的数据,比如药物的发现,蛋白质折叠,量子化学,粒子物理以及材料设计等等。”

Hassabis暗示下一代的AlphaGo Zero将被用来作为室温超导体——这是一种能够让电流通过而不损失能量的物质,将极大地提高能耗效率。目前的超导体只能够在超低温下工作,就像英特尔刚刚发布的量子芯片。“这种室温超导体在我小的时候就好像是一个遥不可及的梦,但是可能它就是存在的。”Hassbis表示。

不过值得指出的是,围棋和很多棋盘类的游戏一样,它的规则是有限的,不含运气成分,也没有隐藏的信息,因此计算机相对容易理解。但是如果要运用到其它领域,AlphaGo的局限性就会展现出来,DeepMind目前还没有创造出一个魔术的“思考机器”。Hassabis说道:“AlphaGo是一个不错的开端。我们需要分两步走:第一步,解决智能的问题;第二步,让世界变得更美好。我们正在试图构建通用的算法,这只完成了第一步,但是激动人心的一步。”

相关推荐