<强化学习> on policy VS off policy

专注坚持 2020-02-20

默认价值函数为Q(s,a)，策略迭代更新为pai <—— epsilon-greedy(Q)

policy是agent的属性，决定了agent面对某状态s时会选择哪个行为a

value是agent的感觉，代表着agent对某个(s,a)的感觉，感觉它好感觉它不好

强化学习迭代过程中，

policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；

policy-improvement是根据感觉Q生成一个更好的policy

on policy和off policy是policy_evaluation过程中区分的两种方式

Q(s,a) <——r + lamda * Q(s‘,a‘)

on policy是我做了这个行为a之后，后继的所有收获都以我的策略我的眼光来估定；td_target = r + lamda * Q(s‘,a‘) ，(s‘,a‘)产自我的policy

off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + lamda*Q(s‘,a‘) ， (s‘,a‘)产自别人的policy

: 专注坚持

相关推荐

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 0喜欢 / 10评论 2020-11-06

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到

87133658 0喜欢 / 15评论 2020-11-04

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 0喜欢 / 0评论 2020-10-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 0喜欢 / 0评论 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 0喜欢 / 0评论 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 0喜欢 / 0评论 2020-08-14

几行代码实现强化学习

在过去的一年中，强化学习已经取得了重大进步，最新技术每两个月发布一次。我们已经看到AlphaGo击败了世界冠军围棋选手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星际争霸中也拥有自己的实力。实施这些算法可能会非常具有挑战性，

快乐的鱼儿学敲码 0喜欢 / 0评论 2020-08-10

强化学习

强化学习不同于监督、非监督学习，与环境产生交互，产生最优结果的动作序列。Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。它比 Model-free 多出了一个虚拟环境，还有想象力。Po

83153251 0喜欢 / 0评论 2020-07-22

无梯度强化学习：使用Numpy进行神经进化

学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。首先，对于那些还不知道的人，神经进化描述了进化和遗传算法在训练神经网

83153251 0喜欢 / 0评论 2020-06-21

强化学习 --- 马尔科夫决策过程详解（MDP）

马尔科夫性某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。马尔科夫过程又叫做马尔科夫链,它是一个无记忆的随机过程，可以用一个元组<S, P>表示，其中。P是状态转

wilbertzhou 0喜欢 / 0评论 2020-06-06

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 0喜欢 / 0评论 2020-06-05

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个状态进行

wilbertzhou 0喜欢 / 0评论 2020-05-31

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。自动化机器学习最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索是其中重要的技术之一。人工设计网络需要丰富的经验和专业知识，神经网络有众多的超参数，导致其搜索空间巨大。自2017年谷歌与MIT各自在I

专注坚持 0喜欢 / 0评论 2020-05-17

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

Introduction & overview of the key methods and developments.[Good starting point for you to start reading and understanding

83153251 0喜欢 / 0评论 2020-05-15

你该知道的深度强化学习相关知识

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。几乎所有的AI专家都认为：仅仅增加基于深度神经网络系统的规模和速度，是永远不会产生真正的“类人”AI系统的。因此，

机器学习菜鸟 0喜欢 / 0评论 2020-05-12

【论文研读】强化学习入门之DQN

最近在学习斯坦福2017年秋季学期的《强化学习》课程，感兴趣的同学可以follow一下，Sergey大神的，有英文字幕，语速有点快，适合有一些基础的入门生。今天主要总结上午看的有关DQN的一篇论文《Human-level control through d

wilbertzhou 0喜欢 / 0评论 2020-04-18

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法，该方法能够针对数据集搜索构建特定的网络，但需要800卡训练一个月时间。虽然论文的思路有很多改进的地方，但该论文为AutoML的经典之作，为后

kingzone 0喜欢 / 0评论 2020-03-27

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 0喜欢 / 0评论 2020-02-21

<强化学习>基于采样迭代优化agent

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法。　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

sxyhetao 0喜欢 / 0评论 2020-02-14

无监督、弱监督、半监督、强化、多示例学习是什么

什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？随着机器学习问题不断深入人心，人们也将现实中遇到不同的问题分为不同的学习方式，其中，最基础的应属监督学习，无监督学习和强化学习了。

83153251 0喜欢 / 0评论 2020-02-14

<强化学习>马尔可夫决策过程MDP

MDP和NFA唯一相似的地方就是它们都有状态转移，抛掉这一点两者就八竿子打不着了。从而对于每一个特定的π，都能得到其对应的价值函数。所以我们可以有一组的{ ，...... }. 但是我们解决问题的目标是拿到最优的那组，其他的扔掉，解决方法就是使用贝尔曼最

wilbertzhou 0喜欢 / 0评论 2020-02-12

【强化学习】马尔可夫决策过程(MDP)基本原理

大家应该还记得马尔科夫链，了解机器学习的也都知道隐马尔可夫模型。它们具有的一个共同性质就是马尔可夫性，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程也具有马尔可夫性，与上面不同的是MDP考虑了动作，即系统下个状态不仅和

luchi00 0喜欢 / 0评论 2020-02-03

大脑也在用分布式强化学习？DeepMind新研究登上《Nature》

分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术，但 DeepMind 的一项研究表明，这种学习方式也为大脑中的奖励机制提供了一种新的解释，即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力，同时也使得 DeepMind 的研究人员越发坚信

专注坚持 0喜欢 / 0评论 2020-01-16

强化学习杂谈

All goals can be described by the maximisation of expected cumulative reward. 历史就是一系列的观察，反馈，动作，\. 探索，去探索未知，降低不确定性。期望未知给我们带来更好的效果

专注坚持 0喜欢 / 0评论 2020-01-02

今晚腾讯AI Lab线上分享：深度强化学习在王者荣耀虚拟环境构建AI

在机器之心最新的一期 AAAI 2020 线上分享中，我们邀请到了腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家介绍他们王者荣耀 AI 智能体研究。游戏，一直是人工智能技术研究与落地的重要场景之一。而在国内，腾讯 AI Lab 也一直致力于

phjy 0喜欢 / 0评论 2020-01-02

华为诺亚ICLR 2020满分论文：基于强化学习的因果发现算法

人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行，不久之前，大会官方公布论文接收结果：在最终提交的 2594 篇论文中，有 687 篇被接收，接收率为 26.5%。本文介绍了华为诺亚方舟实验室被 ICLR 202

meizhulei 0喜欢 / 0评论 2019-12-30

机器人能否像人类一样感知时间？强化学习赋予机器时间感知

呜啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly栏目又和大家见面啦！AI ScholarWeekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。每周更新，做AI科研，每周从这一篇

风萧萧以往 0喜欢 / 0评论 2019-12-30

【强化学习】DQN 算法改进

Dueling DQN 是一种基于 DQN 的改进算法。下面给出公式，并定义一个新的变量：\[. 也就是说，基于状态和行动的值函数 \(q\) 可以分解成基于状态的值函数 \(v\) 和优势函数\(A\) 。Replay Buffer 能够提高样本利用率的

wilbertzhou 0喜欢 / 0评论 2019-12-13

强化学习、联邦学习、图神经网络，飞桨全新工具组件详解

11 月 5 日，在 Wave Summit+2019 秋季深度学习开发者峰会上，飞桨全新发布和重要升级了最新的 21 项进展，在深度学习开发者社区引起了巨大的反响。今天给大家带来的是系列文章之飞桨工具组件解读。下面带来飞桨深度学习平台工具组件详细解读，核

trillionpower 0喜欢 / 0评论 2019-12-05

浅谈强化学习原理（附代码&链接）

本文约4900字，建议阅读15分钟。本文介绍了强化学习的基本原理，并通过代码实例来讲解如何找到最优策略。Google在2017年年底发布了AlphaZero，这个零基础的AI系统能够在4小时内自学并掌握国际象棋、围棋和将棋。极短的训练时间是 AlphaZe

DarrenXf 0喜欢 / 0评论 2019-11-27

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。[ 导读 ]在DeepMing任职的Nando de Freitas在KHIPU 2019上做了关于强化学习的教程，102页ppt。在KHIPU 2019上，在D

trillionpower 0喜欢 / 0评论 2019-11-23

几行代码轻松实现，Tensorlayer 2.0推出深度强化学习基准库

强化学习通过使用奖励函数对智能体的策略进行优化，深度强化学习则将深度神经网络应用于强化学习算法。近日，为了让工业界能更好地使用前沿强化学习算法，Tensorlayer 强化学习团队发布了专门面向工业界的整套强化学习基线算法库---RLzoo。RLzoo 项

GBAEagle 0喜欢 / 1评论 2019-11-11

百度PARL再度夺冠NeurIPS仿生人挑战赛：强化学习控制的流畅行走

在最近的 NeurlPS 2019 强化学习赛事中，百度凭借其自研的强化学习框架「PARL」再次夺冠。机器学习领域顶级会议 NeurIPS 2019 将于 12 月 8 日-14 日在加拿大温哥华开幕。不久之前，大会公布了论文评审结果，今年大会共收到

87133658 0喜欢 / 0评论 2019-11-04

DeepMind 开源 Spriteworld，灵活，可配置的强化学习环境

Spriteworld是一个基于python的RL环境，由一个可以自由移动的简单形状的二维竞技场组成。该环境是为文章“COBRA：基于数据有效模型的RL通过无监督对象发现和好奇心驱动的探索”中介绍的COBRA代理开发的。环境的动机是为程序生成多对象场景提供

专注坚持 0喜欢 / 0评论 2019-11-03

在行动中学习-强化学习

为了了解这类问题，人们提出了一个不同的学习方式，称为强化学习。强化学习的目标是要获得一个策略去指导行动。与监督学习不同，强化学习不需要一系列包含输入与预测的样本，他是在行动中学习。持续不断的强化学习甚至获得比人类更优的决策机制。在2016年击败围棋冠军李世

starrainbow 0喜欢 / 0评论 2019-08-14

强化学习

因为这两周学习了蒙特卡洛树搜索算法，当时看了相关资料介绍，蒙特卡洛方法属于强化学习的范畴，所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系，书上提到的exploration和exploitation、

hhycsdn 0喜欢 / 0评论 2019-10-28

集合三大类无模型强化学习算法，BAIR开源RL代码库rlpyt

近日，BAIR 开源强化学习研究代码库 rlpyt，首次包含三大类无模型强化学习算法，并提出一种新型数据结构。目前，很少有代码库同时包含这三类算法，很多原始实现仍未公开。强化学习研究者必须花时间重新实现算法，这是一项珍贵的个人实践，但它也导致社区中的大量重

ZTaoz 0喜欢 / 0评论 2019-10-08

这个开源项目用Pytorch实现了17种强化学习算法

强化学习在过去的十年里取得了巨大的发展，如今已然是各大领域热捧的技术之一，今天，猿妹和大家推荐一个有关强化学习的开源项目。这个开源项目是通过PyTorch实现了17种深度强化学习算法的教程和代码库，帮助大家在实践中理解深度RL算法。创建者计划尽快添加更多的

87133658 0喜欢 / 0评论 2019-09-29

DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度强化学习一直是近年来人工智能的一些重大突破的核心。然而，尽管 DRL 有了很大的进步，但由于缺乏工具和库，DRL 方法在主流解决方案中仍然难以应用。就在最近，DeepMind 发布了一系列新的开源技术，包

luchi00 0喜欢 / 0评论 2019-09-20

GitHub万星资源：强化学习算法实现，教程代码学习规划全都有

自从有了强化学习，AI上能星际争霸，下能雅达利称王，让内行人沉醉，让外行人惊奇。这里恰有一份标星过万的强化学习资源，既有教程推荐，又有配套练习，网友学了都说好，并且还在实时更新。入学要求并不高，只需要一些基础的数学和机器学习知识。Denny Britz 小

勿于浮沙筑高台 0喜欢 / 0评论 2019-08-12

深度强化学习入门难？这份资料手把手教会你

深度强化学习在机器学习领域的热度一直很高。最近，GitHub 开源了一份深度强化学习的教程，总结了从 DQN 到彩虹模型的理论和代码实现。读者朋友可以根据需要学习研究。教程代码基于 PyTorch，可在 Colab 中运行。这一技术使用深度神经网络，提升智

meizhulei 0喜欢 / 0评论 2019-07-11

强化学习在携程酒店推荐排序中的应用探索

目前携程酒店绝大部分排序业务中所涉及的问题，基本可以通过应用排序学习完成。然而在实际使用中，往往存在业务新增或者业务变更，这就使得使用历史数据训练的模型，并不能很好地用于变更后的应用场景。形成该问题的主要原因，是过去所收集的数据与实际排序场景并不一致。为了

83153251 0喜欢 / 0评论 2019-07-01

7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文

Google AI 大牛、谷歌大脑负责人 Jeff Dean 曾统计过一个数据：平均每天全世界都会产生 100 篇机器学习新论文。已经相当忙碌的 AI 从业者如何有针对性的选择优质论文学习呢？机器之心「7 Papers」为大家整理了过去一周备受关注的优质论

chenyuping 0喜欢 / 0评论 2019-07-01

一个简单的强化学习实现案列-基于学习自动机的链路预测模型

强化学习强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经

LuqiangShi 0喜欢 / 0评论 2019-07-01

TensorFlow 2.0深度强化学习指南

摘要：用深度强化学习来展示TensorFlow 2.0的强大特性！在本教程中，我将通过实施Advantage Actor-Critic代理来解决经典的CartPole-v0环境，通过深度强化学习展示即将推出的TensorFlow2.0特性。虽然我们的目标是

qinmiaofu 0喜欢 / 0评论 2019-06-30

2018年AI和ML（NLP、计算机视觉、强化学习）技术总结和2019年趋势（下）

摘要：回顾2018，展望2019，计算机科学技术继续前进！我参与了大量关于哪种工具最好的辩论，哪个框架会取代另一个，哪个库是经济计算的缩影等等。但有一点共识--我们需要掌握该领域的最新工具，否则就有被淘汰的风险。Python取代其他所有事物并将自己打造成行

yukyinbaby 0喜欢 / 0评论 2019-06-30

2018年AI和ML（NLP、计算机视觉、强化学习）技术总结和2019年趋势（上）

摘要：回顾2018，展望2019，计算机科学技术继续前进！因为这些技术已经发展成为主流，并且正在影响着数百万人的生活。各国现在都有专门的人工智能规划和预算，以确保在这场比赛中保持优势。数据科学从业人员也是如此，这个领域正在发生很多事情，你必须要跑的足够的快

ELMNnuR黑玫 0喜欢 / 0评论 2019-06-30

滴滴KDD2018：强化学习派单

白话解读离线learning部分本质上是将任意时刻任意空间位置离散化为时空网格，根据派单记录计算该时空网格到当天结束时刻的预期收入。动态规划思路：假设总共有时刻区间为[0, T)；先计算T-1时刻的所有网格的预期收入，其本质就是计算当前收入的均值；然后计算

专注坚持 0喜欢 / 0评论 2019-06-30

强化学习在美团“猜你喜欢”的实践

1 概述“猜你喜欢”是美团流量最大的推荐展位，位于首页最下方，产品形态为信息流，承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代，目前“猜你喜欢”基线策略的排序模型是业界领先的流式更新的Wide&Deep模型[1

wilbertzhou 0喜欢 / 0评论 2019-06-29