wangxuekuan 2019-02-06
过去AI领域的研究人员常用能够体现真实世界问题的游戏,来研究AI系统,如蒙特祖马的复仇(Montezuma's Revenge)、陷阱(Pitfall),以及围棋等,让AI学会问题解决的能力,而近日Google Brain和其子公司DeepMind的研究人员,联手用更复杂的卡牌游戏Hanabi来进行AI研究,为AI研究翻开新的一页,该卡牌游戏需要2~5个玩家共同合作,此外,还需要推断对手的意图,这对AI系统而言,是另一个全新且困难的挑战,目前研究结果显示还有很大的进步空间,研究团队近日将研究成果发表成论文,为了促进未来相关的研究,也开源发布Hanabi学习环境和实验框架。
研究团队认为,人类的社会是由许多不同的人所组成,复杂的互动模式在人类生活中,扮演关键的角色,因此,必须要让AI程序学会有效地与其他程序合作的能力,尤其是与人类合作,有别于2个玩家互相对抗的博弈游戏,Hanabi游戏并非建立在平等、独立的游戏策略,Hanabi游戏的玩家策略是建立在队友的整体策略上。
在Hanabi卡牌游戏中,总共含有55张Hanabi牌,包含红、黄、蓝、绿、白色和彩色的花色和1~5的数字,游戏一开始,每位玩家会有5张牌,玩家持牌时必须将牌面背向自己,因此每位玩家都可以看到其他玩家的牌,但是不能看到自己的牌,每一回合玩家必须从以下3个动作选择其一来行动,分别是提供信息、弃牌和打牌,也就是玩家可以选择提供花色或是数字牌的位置信息,或是丢弃一张持牌,或是打出牌面上没有出现过花色的牌、出现过花色下一个数字的牌,游戏是轮流回合制,直到所有牌用完就是最后一回合,该游戏在2013年获得德国游戏大奖。
游戏最终的目标是要获得最高分,为了成功拿到高分,玩家之间必须互相合作来揭露信息,但是,在游戏规则下,互相提供信息的次数是有限制的,因此,无法完全解开每个玩家对自己手牌的不确定性,不能单靠互相提供信息来获取高分,为了克服这个限制,每回合每个玩家选择采取的行动就暗示了额外信息,也因此,每位玩家不仅要合作,还得推断对方的意图。
Hanabi存在不对等的信息特性,造成处理AI算法复杂度的维度具有挑战性,每个玩家对特定信号的反应以来其他一样信号的情况,由于这样的相互关系,强化学习中单一动作的探索技术,因为忽略了整体的影响,而会错误估计程序的有效性。
研究团队用Python和C++打造Hanabi学习环境接口,该学习环境包含两项挑战,一个是在没有其他AI玩家的帮忙下,自己在玩游戏的过程学习,找出最佳的联合策略,来得到最高分,另一个则是透过特定组成的团队,来测试并训练AI玩家与其他AI玩家,或是人类玩家一起玩游戏的能力。
研究实验中,研究团队利用强化学习算法搭配深度神经网络,来检验AI模型,并用几个手动编写规则的Hanabi游戏机器人来对照,AI玩家在自我完成游戏的设定下,目前开发的算法表现,还远远不及手动编写规则的机器人,而与其他AI玩家一起合作的设定下,AI玩家之间也完全无法合作,研究团队指出,Hanabi游戏的玩家之间不仅要沟通,还需要具备推理的能力,才能合作,这项研究显示上述两项挑战的设定,还有很大的进步空间,期望未来用更进阶的技术,理解如何开发拥有类似人类心智的AI程序。