AndyViky 2017-05-20
选自arXiv
机器之心编译
参与:黄玉胜、吴攀
强化学习(RL)和生成对抗网络(GAN)都是近来的热门研究主题,已经在许多领域得到了非常出色的表现。近日,伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习代理的自动目标生成(Automatic Goal Generation for Reinforcement Learning Agents)》的论文中,研究者提出了一种让代理可以自动发现目标的方法。机器之心对该论文进行了摘要介绍,论文原文请参阅:https://arxiv.org/abs/1705.06366
强化学习是一种训练代理执行任务的强大技术。然而,强化学习训练的代理只能通过其奖励函数(reward function)实现单一任务,这种方法不能很好地扩展到代理需要执行各种不同的任务集合中,例如导航到房间的不同位置或将物体移动到不同位置。相反,我们提出了一种允许代理自动发现其能够执行的任务范围的方法。我们使用生成器网络给代理提出任务,然后试着实现并将其作为目标状态(goal state)。该生成器网络使用对抗训练进行优化,以产生总是处于合适难度的代理任务。因此,我们的方法自动生成任务,以供代理学习。我们表明,通过使用此框架,代理可以高效自动地学习执行广泛的任务,而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励(sparse reward)来完成任务,而在以往这是重大的挑战。
算法 1:训练目标 GAN(Goal GAN)
算法 2:生成式目标学习
图 1:我们的迷宫环境;以橙色显示的代理必须移动到的一个目标位置(以红色显示),采样工作是在任务开始的时候开始的。迷宫墙呈灰色。
图 2:我们的方法(蓝色)和基准方法(红色)训练效率学习曲线的比较。y 轴表示迷宫中所有目标位置的平均回报,x 轴显示了新目标已被采样的次数(对于两种方法,该策略都针对相同次数的迭代进行训练),所有的点均为在 5 个随机种子(seed)上的平均值。
图 3:Goal GAN 采样的目标(与图 4 相同的训练方法)。当前方法与难度相适应就是「好目标」
。
图 4:可视化状态空间不同部分的策略表现(与图 3 相同的训练策略)。说明一下,可行状态空间(即,迷宫内的空间)被划分为网格,并且从每个网格单元的中心选择目标位置。每个网格单元根据此目标实现的预期回报进行着色:红色表示 100% 的成功,蓝色表示 0% 成功。
表 1:在完整的状态空间中可行目标的百分比
图 5:二维和三维点质量的可视化,可行区域以蓝色界定。在(a)中的点是均匀采样的可行位置。如果代理可以到达它们,则点为绿色,否则为红色。图中的线是观察到的特定推出,并且颜色匹配交叉是代理在每种情况下试图达到的特定目标。在(b)中,我们通过 Goal GAN 绘制初始采样生成,采用我们的技术初始化生成器。
图 6:当维度越来越大时,在 N 维点质量环境中获得的覆盖率(即每个策略可以达到的目标的百分比,返回值大于 Rmax)。每种方法已经产生了 200 次新目标,每个策略都用相同的总迭代次数进行训练。所有的图均为在 5 个随机种子(seed)上的平均值。