最强对决:谷歌AlphaGo 5月决战柯洁

九三智能控 2017-04-10

机器之心报道

参与:李亚洲、李泽南、吴攀


4月10日下午,谷歌在北京的中国棋院召开新闻发布会,正式宣布AlphaGo将于今年5月23日在浙江乌镇对决以柯洁为代表的中国顶尖棋手。

最强对决:谷歌AlphaGo 5月决战柯洁

据机器之心现场了解,中国围棋协会和浙江省体育局携手谷歌三方将联合主办「中国乌镇·围棋峰会」。本次峰会将从5月23日至27日在浙江乌镇展开,除AlphaGo与柯洁的三番棋对战之外,还将举办配对赛和团体赛两场形式不同的交流比赛。

配对赛中,两位棋手将分别与AlphaGo组队,挑战棋手如何去理解AlphaGo的独特风格并与之合作;在团队赛中,将有五位中国顶尖棋手合作,建立棋手“神经网络”,降低心理因素的影响,从而做出更加客观的判断。

在发布会现场,柯洁表示,「能与 AlphaGo 对阵是我的荣幸,但我一定会击败 AlphaGo」。据悉,此次比赛的获胜奖金为 150 万美元。

最强对决:谷歌AlphaGo 5月决战柯洁

离AlphaGo和李世乭的“人机大战”已经过去了一年,AlphaGo与柯洁的对弈是业内期待已久的一场对决。去年AlphaGo与世界围棋冠军李世乭的比赛引起了极大的关注,人机对战成为人工智能领域的热门话题。不久之前,斩获UEC杯计算机围棋大赛冠军的腾讯人工智能系统「绝艺」,在东京举行的第五届“电圣战”世界人机大战中战胜了日本围棋界的新锐棋手一力辽七段(世界排名第44位,日本第2)。

谷歌和DeepMind对于围棋的探索并未随着去年和今年初的两次“亮相”而结束,由于围棋近乎无穷的变化,人类棋手在千百年战术发展的过程中似乎并未触及围棋的本质,DeepMind的研究者一直将目标定为探索围棋的极限。DeepMind 官方发布的 2016 年度总结中写道,「最激动人心的莫过于 AlphaGo 博弈过程中所呈现出来的创造力,有时,它的棋招甚至挑战了古老的围棋智慧。围棋,这一古往今来最富深谋远虑的游戏之一,AlphaGo 可以识别并分享其中洞见。」

此前,AlphaGo在2016年3月与前围棋世界冠军,韩国棋手李世乭九段在韩国首尔进行了五次对决,并4比1获胜,第一次在正式比赛环境中战胜了人类顶尖棋手。AlphaGo因此而获得了韩国棋院颁发的“名誉九段”证书。在沉寂了一段时间后,去年末,AlphaGo以“Master”为名出现在腾讯野狐网上围棋平台中,与中日韩三国顶尖棋手进行了一系列网上快棋对决,并实现了60胜0负的完美战绩。

显然,AlphaGo并不满足于线上围棋平台的胜利,谷歌方面很早就与中国棋院达成了一致,准备于今年举行新一轮的围棋人机大战。去年12月,谷歌联合创始人、Alphabet总裁谢尔盖·布林和谷歌CEO皮查伊(Sundar Pichai)一同造访中国棋院,观摩了棋手训练,并与“棋圣”聂卫平九段及中国围棋队总教练俞斌九段进行了交流。

2016年12月31日,柯洁在微博上表示:

「我从(2016年)3月份开始到现在研究了大半年的棋软,无数次的理论、实践,就是想知道计算机究竟强在哪里。昨晚辗转反侧,不想竟一夜无眠。人类数千年的实战演练进化,计算机却告诉我们人类全都是错的。我觉得,甚至没有一个人沾到围棋真理的边。但是我想说,从现在开始,我们棋手将会结合计算机,迈进全新的领域达到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战!」

AlphaGo升级版

去年1月28日,Nature杂志以封面论文的形式介绍了DeepMind团队开发的人工智能程序AlphaGo,这也就是后来击败韩国棋手李世乭的AlphaGo版本。据此次发布会提供的信息,今年年初席卷中国围棋界的「Master/Magister」是AlphaGo的升级版本,但它下的是快棋,与此次对决的规则不同。

AlphaGo结合了监督学习与强化学习的优势。通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后,训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。

最强对决:谷歌AlphaGo 5月决战柯洁

在获取棋局信息后,AlphaGo会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最繁琐考察的位置将成为AlphaGo的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的探索算法就能在其计算能力之上加入近似人类的直觉判断。

最强对决:谷歌AlphaGo 5月决战柯洁

据了解,新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

相关推荐