伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

AndyViky 2017-05-20

选自arXiv

机器之心编译

参与：黄玉胜、吴攀

强化学习（RL）和生成对抗网络（GAN）都是近来的热门研究主题，已经在许多领域得到了非常出色的表现。近日，伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习代理的自动目标生成（Automatic Goal Generation for Reinforcement Learning Agents）》的论文中，研究者提出了一种让代理可以自动发现目标的方法。机器之心对该论文进行了摘要介绍，论文原文请参阅：https://arxiv.org/abs/1705.06366

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

强化学习是一种训练代理执行任务的强大技术。然而，强化学习训练的代理只能通过其奖励函数（reward function）实现单一任务，这种方法不能很好地扩展到代理需要执行各种不同的任务集合中，例如导航到房间的不同位置或将物体移动到不同位置。相反，我们提出了一种允许代理自动发现其能够执行的任务范围的方法。我们使用生成器网络给代理提出任务，然后试着实现并将其作为目标状态（goal state）。该生成器网络使用对抗训练进行优化，以产生总是处于合适难度的代理任务。因此，我们的方法自动生成任务，以供代理学习。我们表明，通过使用此框架，代理可以高效自动地学习执行广泛的任务，而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励（sparse reward）来完成任务，而在以往这是重大的挑战。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

算法 1：训练目标 GAN（Goal GAN）

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

算法 2：生成式目标学习

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 1：我们的迷宫环境；以橙色显示的代理必须移动到的一个目标位置（以红色显示），采样工作是在任务开始的时候开始的。迷宫墙呈灰色。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 2：我们的方法（蓝色）和基准方法（红色）训练效率学习曲线的比较。y 轴表示迷宫中所有目标位置的平均回报，x 轴显示了新目标已被采样的次数（对于两种方法，该策略都针对相同次数的迭代进行训练），所有的点均为在 5 个随机种子（seed）上的平均值。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 3：Goal GAN 采样的目标（与图 4 相同的训练方法）。当前方法与难度相适应就是「好目标」

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 4：可视化状态空间不同部分的策略表现（与图 3 相同的训练策略）。说明一下，可行状态空间（即，迷宫内的空间）被划分为网格，并且从每个网格单元的中心选择目标位置。每个网格单元根据此目标实现的预期回报进行着色：红色表示 100% 的成功，蓝色表示 0% 成功。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

表 1：在完整的状态空间中可行目标的百分比

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 5：二维和三维点质量的可视化，可行区域以蓝色界定。在（a）中的点是均匀采样的可行位置。如果代理可以到达它们，则点为绿色，否则为红色。图中的线是观察到的特定推出，并且颜色匹配交叉是代理在每种情况下试图达到的特定目标。在（b）中，我们通过 Goal GAN 绘制初始采样生成，采用我们的技术初始化生成器。

伯克利与OpenAI整合RL与GAN：让代理学习自动发现目标

图 6：当维度越来越大时，在 N 维点质量环境中获得的覆盖率（即每个策略可以达到的目标的百分比，返回值大于 Rmax）。每种方法已经产生了 200 次新目标，每个策略都用相同的总迭代次数进行训练。所有的图均为在 5 个随机种子（seed）上的平均值。

: AndyViky

相关推荐

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 0喜欢 / 0评论 2020-10-15

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 0喜欢 / 0评论 2020-06-05

BAIR最新RL算法超越谷歌Dreamer，性能提升2.8倍

pixel-based RL 算法逆袭，BAIR 提出将对比学习与 RL 相结合的算法，其 sample-efficiency 匹敌 state-based RL。传统意义上，大家普遍认为以图像为观测值的 RL 数据效率较低，通常需要一亿个交互的 step

StrongHYQ 0喜欢 / 0评论 2020-05-28

边做边思考，谷歌大脑提出并发RL算法，机械臂抓取速度提高一倍

RL 算法通常假设，在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现，然而在真实机器人控制当中并不成立，很可能导致控制策略运行缓慢甚至失效。为缓解以上问题，最近谷歌大脑与 UC 伯克利、X 实验室共同提出一种并发 RL 算

baijingjing 0喜欢 / 0评论 2020-05-12

Django基础二之URL路由系统

#循环urlpatterns，找到对应的函数执行,匹配上一个路径就找到对应的函数执行，就不再往下循环了，并给函数传一个参数request，就是请求信息的所有内容。urlpatterns中的元素按照书写顺序从上往下逐一匹配正则表达式，一旦匹配成功则不再继续。

jyj00 0喜欢 / 0评论 2020-02-14

人类终于创造了惰性人工智能……

许多文章解释了强化学习的概念，但鲜有文章解释如何切实地设计实现现实世界中的强化学习。小芯这次想分享人工智能范式转变课程，讨论设计权衡问题，并深入研究技术细节。RL解决方案面临着类似的任务，高大上且有意义，欢迎了解。蓝色线是无RL情况下的单车停放趋势。以下图

hiarxiaoliang 0喜欢 / 0评论 2020-02-06

集合三大类无模型强化学习算法，BAIR开源RL代码库rlpyt

近日，BAIR 开源强化学习研究代码库 rlpyt，首次包含三大类无模型强化学习算法，并提出一种新型数据结构。目前，很少有代码库同时包含这三类算法，很多原始实现仍未公开。强化学习研究者必须花时间重新实现算法，这是一项珍贵的个人实践，但它也导致社区中的大量重

ZTaoz 0喜欢 / 0评论 2019-10-08

Go语言截取字符串函数用法

本文实例讲述了Go语言截取字符串函数用法。分享给大家供大家参考。}希望本文所述对大家的Go语言程序设计有所帮助。

scratlc 0喜欢 / 0评论 2015-02-23

jquery当radio值发生变化时触发行为

JQueryradiochecked选中事件2010-08-0911:57<!<scriptsrc="jquery-1.4.2.min.js"type="text/javascript"></

msyndra 0喜欢 / 0评论 2011-05-26

从认知学到进化论，详述强化学习两大最新突破

深层强化学习近年来在人工智能方面取得了令人瞩目的进步，在Atari游戏、围棋及无限制扑克等领域战胜了人类。通过将表征学习与奖励驱动行为相结合，深层强化学习又引发了心理学和神经科学领域的诸多讨论。不过，深度强化学习过程往往需要大量的训练数据。正因如此，多数人

lemonade 0喜欢 / 0评论 2019-05-27

6行代码搞定基本的RL算法，速度围观Reddit高赞帖

今天和大家分享Reddit上的一个热帖，楼主用PyTorch实现了基本的RL算法，而且每个算法都在一个文件夹中完成，即使没有GPU，每个算法也可以在30秒内完成训练。近日，有开发人员用PyTorch实现了基本的RL算法，比如REINFORCE, vanil

ITboyJason 0喜欢 / 0评论 2019-05-27

深度强化学习中泛化的基准

强化学习是教授代理通过反复试验解决复杂任务的方法。结合深度神经网络，强化学习算法在Go和Dota 2等高维任务中取得了令人瞩目的成果。虽然这些结果是开创性的，但人们普遍认为深度强化学习算法在推广到其他任务方面是非常糟糕的。深度RL中的泛化已被证明是一个特别

faiculty 0喜欢 / 0评论 2018-12-21

NeurIPS 2018网易推出强化编程框架，一文解读如何帮RL落地产业

人工智能顶会NeurIPS 2018正在如火如荼的进行着，并且首次在第一天增加了Expo Workshop。一共有十家公司有幸拿到了组织workshop的机会，其中中国有四家，分别是阿里巴巴，百度，Pony.AI和网易。其中，AI方面一向低调的网易首次公布

勿于浮沙筑高台 0喜欢 / 0评论 2018-12-05

强化学习的基础缺陷

在这篇文章中，我们将讨论AI 的核心领域之一的局限性。在这个过程中，我们将遇到一个有趣的故事，一套将先前的知识和指导纳入深度学习的方法，以及一个根本的结论。它将包含一些可以被AI从业者忽略的解释，但是一定要坚持讨论最近的非纯粹RL工作，我们认为这些解释代表

87133955 0喜欢 / 0评论 2018-07-10

Google Dopamine：新的强化学习（RL）框架简介

简介强化学习是机器学习的重要组成部分。强化学习类似于学习人类和动物如何了解环境。在强化学习中，机器通过其执行的动作和结果来学习。在强化学习中，学习者是一个在环境中采取行动并因其试图解决问题的行为而获得奖励或惩罚的决策代理。在过去几年中，强化学习获得了很大的

pandazjd 0喜欢 / 0评论 2018-09-24

深度增强学习实践：让Python小程序玩游戏训练神经网络

我们这里要简要介绍一下增强学习——一种为了提高玩游戏效率的训练程序的通用技术。我们的目标是解释其实际实现：我们讲述一些基本理论，然后走马观花地看一下为玩《战舰》游戏而训练神经网络的最小python程序。具体地说，我们所追求的设计原则是。通过连续地玩游戏快速

zhennang 0喜欢 / 0评论 2016-10-21

「强化学习炼金术」李飞飞高徒带你一文读懂RL来龙去脉

斯坦福大学博士生、师从李飞飞教授的Jim Fan（范麟熙）带你一文读懂强化学习的来龙去脉。本文以轻松有趣的方式介绍了强化学习的概念和目的，早期功不可没的宗师泰斗，理解算法所需要的预备知识，还从仿生学和心理学的角度介绍了强化学习的历史背景。欢迎来到《强化学习

84500495 0喜欢 / 0评论 2018-01-07

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning. 然而，人为因素与上述所描绘的RL模拟场景存在一些差

trillionpower 0喜欢 / 0评论 2019-02-21

Python实现常见的回文字符串算法

def is_plalindrome: return string == ''.join`自己实现。return ''.join时间复杂度为 O(n^2), 空间复杂度为 O(n^2). Manacher 算法首先对字符串做一个预处理,使得所有的串都是奇

PythonGCS 0喜欢 / 0评论 2018-11-14

快1万倍！伯克利提出用深度RL优化SQL查询

如何优化 SQL 连接是数据库社区数十年来一直在研究的一个大问题。近日，伯克利 RiseLab 公布了一项研究表明，深度强化学习可以被成功地应用在优化 SQL 连接上。对于大型的连接，这项技术的运行速度比传统动态规划快上 10 倍，比穷举快上 10000

伊恩 0喜欢 / 0评论 2018-10-09

iOS之RunLoop

RunLoop是iOS线程相关的比较重要的一个概念，无论是主线程还是子线程，都对应一个RunLoop，如果没有RunLoop，线程会马上被系统回收。本文主要CFRunLoop的源码解析，并简单阐述一下CFRunLoop的原理。可以看到，系统建立了一个do

BAT 批处理程序 0喜欢 / 0评论 2017-05-09