你该知道的深度强化学习相关知识

即将开播：5月14日，Jenkins在K8S下的三种部署流程和实战演示

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。几乎所有的AI专家都认为：仅仅增加基于深度神经网络系统的规模和速度，是永远不会产生真正的“类人(human-like)”AI系统的。

因此，人们开始转向那些“监督学习”以外的ML和AI计算范式和算法，试图顺应人类的学习过程曲线。该领域研究的最广泛的当属--强化学习(Reinforcement Learning，RL)。在本文中，我们通过相关知识和算法的介绍，和您简要地讨论了如何将深度学习和强化学习融合在一起，产生所谓深度强化学习(Deep Reinforcement Learning，DRL)，这一强大的AI系统。

什么是深度强化学习?

众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务(如：做数学题、写诗、交谈)。而强化学习则旨在使用软、硬件之类的代理(具体含义请见下文)，通过明确的定义、合理的设计等相关算法，来模仿人类的此类行为。也就是说，这种学习范式的目标不是以简单的输入/输出方式(如：独立的深度学习系统)，来映射带有标签的示例，而是要建立一种策略，通过帮助智能化的代理，以某种顺序进行动作(具体含义请见下文)，从而实现某项最终目标。

你该知道的深度强化学习相关知识

图片来源：《机器学习有哪些类型》(请参见-- https://towardsdatascience.com/what-are-the-types-of-machine-learning-e2b9e5d1756f)

其实，强化学习是一些面向目标(goal-oriented)的算法，它们能够学习如何实现复杂的目标，或通过多个步骤沿着某个特定维度来实现目标的最大化。下面是强化学习在实际应用中的三种示例：

让一个棋盘游戏的获胜率最大化。
让财务模拟某笔交易的最大收益。
在复杂的环境中，保障机器人在移动过程中的错误行径最小。

如下图所示，其基本想法是：代理通过传感器接收来自所处环境中的输入数据，使用强化学习的算法对其进行处理，然后采取相应的行动以达到预定的目标。可见，这与人类在日常生活中的行为非常相似。

你该知道的深度强化学习相关知识

资料来源：《强化学习的简介》(请参见--http://incompleteideas.net/book/bookdraft2017nov5.pdf)

深度强化学习中的基本定义

我们在开展后续讨论之前，了解强化学习中所涉及和使用到的各种关键术语是非常实用的。其中包括：

代理(Agent)：一种软、硬件机制。它通过与周围环境的交互，来采取相应的措施。例如：一架正在送货的无人机，或是视频游戏中引导超级玛丽前进的程序。当然，算法本身也属于代理。
动作(Action)：代理可以采取的各种可能性动作。虽然动作本身具有一定的不言自明性(self-explanatory)，但是我们仍需要让代理能够从一系列离散的、且可能的动作中予以选择。
环境(Environment)：外界环境与代理之间存在着相互作用，以及做出响应的关系。环境将代理当前的状态和动作作为输入，并将代理的奖励(具体含义请见下文)和下一个状态作为输出。
状态(State)：状态是代理自行发现的、具体且直接的情况，包括：特定的地点、时刻、以及将代理与其他重要事物相关联的瞬时配置。例如：一个棋盘在某个特定时刻的棋子布局。
奖励(Reward)：奖励是一种反馈，我们可以据此衡量代理在给定状态下各种动作的成败。例如：在下棋游戏中，吃掉对手的象这一重要的动作会得到某种奖励，而赢得整个游戏则会获得更大的奖励。负奖励(Negative rewards)有着相反的含义，例如：下输了一盘棋。
折扣因子(Discount factor)：折扣因子是一个乘数。由代理发现的未来奖励乘以该因子，以减弱此类奖励针对代理当前动作选择的累积影响。这是强化学习的核心，也就是通过逐渐降低未来奖励的值，以便对最近的动作给予更多的权值。这对于基于“延迟动作(delayed action)”原理的范式而言，是至关重要的。
策略(Policy)：它是代理用来根据当前状态确定下一步动作的策略。它能够将不同的状态映射到各种动作上，以承诺最高的奖励。
值(Value)：它被定义为在特定的策略下，当前状态带有折扣的长期预期奖励(并非短期奖励)。
Q值(Q-value)或动作值(action-value)：与“值”的不同之处在于，Q值需要一个额外的参数，也就是当前的动作。它是指一个动作在特定的策略下，由当前状态产生的长期奖励。

常见的数学(算法)框架

在解决强化学习的相关问题时，我们经常会用到如下的数学框架：

马尔可夫决策过程(Markov Decision Process，MDP)：几乎所有的强化学习问题都可以被构造为MDP。MDP中的所有状态都具有“马尔可夫”属性，即：未来仅取决于当前状态，而非状态的历史，这一事实。

Bellman方程(Bellman Equations)：它是一组将值函数分解为即时奖励加上折扣未来值的方程。

动态编程(Dynamic Programming，DP)：如果当系统模型(代理+环境)完全已知时，根据Bellman方程，我们就可以使用动态编程，来迭代评估值函数，并改进相应的策略。

你该知道的深度强化学习相关知识

值迭代(Value iteration)：这是一种算法，它通过迭代式地改进对于值的估计，以计算出具有最佳状态值的函数。该算法先将值函数初始化为任意随机值，然后重复更新Q值和值函数的各个值，直到它们收敛为止。

你该知道的深度强化学习相关知识

策略迭代(Policy iteration)：由于代理仅关注寻找最优的策略，而最优策略有时会在价值函数之前就已经收敛了。因此，策略迭代不应该重复地改进值函数的估算，而需要在每一步上重新定义策略，并根据新的策略去计算出值来，直到策略收敛为止。

Q学习(Q-learning)：作为一种无模型(model-free)学习算法的示例，它并不会假定代理对于状态的转换和奖励模型已经了如指掌，而是“认为”代理将通过反复的试验，来发现正确的动作。因此，Q学习的基本思想是：在代理与环境交互过程中，通过观察Q值函数的样本，以接近“状态-动作对(state-action pairs)”的Q函数。这种方法也被称为时分学习(Time-Difference Learning)。

你该知道的深度强化学习相关知识

上图是一个通过Q学习(即：尝试和错误观察)，来解决强化学习问题的示例(请参见-- https://gym.openai.com/envs/MountainCar-v0)。在示例所处环境中，动力学和模型，即运动的整体物理原理，都是未知的。

Q学习所存在的问题

Q学习是解决强化学习相关问题的一种简单而强大的方法。从理论上讲，我们可以在不引入其他数学复杂性的情况下，将其延伸到各种大而复杂的问题上。其实，Q学习可以借助递归方程来完成，其中：

Q(s，a)：Q值函数

s：状态

s'，s''：未来状态

a：动作

γ：折现率

对于小的问题，我们可以从对所有的Q值(Q-values)做出任意假设开始，通过反复的试验，Q表(Q-table)不断得以更新，进而让政策逐渐趋于一致。由于更新和选择动作是随机执行的，因此最优的策略可能并不代表全局最优，但它可以被用于所有实际的目的。

不过，随着问题规模的增加，针对某个大问题所构造并存储一组Q表，将很快成为一个计算性的难题。例如：在象棋或围棋之类的游戏中，可能的状态数(即移动的顺序)与玩家需要提前计算的步数，成指数式的增长。因此：

保存和更新该表所需的内存量，将随着状态数的增加而增多。
探索每个状态，进而创建Q表所需的时间，将变得无法预知。

针对上述问题，我们需要用到诸如深度Q学习(Deep-Q learning)之类的技术，并使用机器学习来试着解决。

深度Q学习

顾名思义，深度Q学习不再维护一张大型的Q值表，而是利用神经网络从给定的动作和状态输入中去接近Q值函数。在一些公式中，作为输入的状态已经被给出，而所有可能的动作Q值都作为输出被产生。此处的神经网络被称为Deep-Q–Network(DQN)，其基本思想如下图所示：

你该知道的深度强化学习相关知识

图片来源：在Python中使用OpenAI Gym进行深度Q学习的入门(请参见--https://www.analyticsvidhya.com/blog/2019/04/introduction-deep-q-learning-python/)

不过DQN在使用的时候有一定的难度。而在传统的深度学习算法中，由于我们对输入样本进行了随机化处理，因此输入的类别在各种训练批次之间，都是非常均衡且稳定的。在强化学习中，搜索会在探索阶段(exploration phase)不断被改进，进而不断地更改输入和动作的空间。此外，随着系统逐渐加深对于环境的了解，Q的目标值也会自动被更新。简而言之，对于简单的DQN系统而言，输入和输出都是经常变化的。

为了解决该问题，DQN引入了体验重播(experience replay)和目标网络(target network)的概念来减缓变化，进而以受控且稳定的方式逐步学习Q表。

其中，体验重播在特定的缓冲区中存储一定量的状态动作奖励值(例如，最后有一百万个)。而对于Q函数的训练，它使用来自缓冲区的随机样本的小批量来完成。因此，训练样本不但是随机的，并且能够表现得更接近传统深度学习中监督学习的典型情况。这有点类似于系统具有高效的短期记忆，我们在探索未知环境时可以用到它。

此外，DQN通常使用两个网络来存储Q值。一个网络不断被更新，而另一个网络(即：目标网络)与第一个网络以固定的间隔进行同步。我们使用目标网络来检索Q值，以保证目标值的变化波动较小。

深度强化学习的实际应用

进行Atari游戏

成立于2010年的DeepMind(请参见--https://deepmind.com/)是一家位于伦敦的初创公司。该公司于2014年被Google的母公司Alphabet所收购，并成功地将卷积神经网络(CNN)和Q学习结合起来用于训练。它为深度强化学习领域做出了开拓性贡献。例如：某个代理可以通过原始像素的输入(如某些感知信号)，来进行Atari游戏。欲知详情，请参见--https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)

你该知道的深度强化学习相关知识

图片来源：DeepMind在arXiV上有关Atari的文章(2013年)(请参见--https://arxiv.org/pdf/1312.5602v1.pdf)。

Alpha Go和Alpha Go Zero

3000多年前起源于中国的围棋，凭借着其复杂性，被称为AI最具挑战性的经典游戏。标准的AI处理方法是：使用搜索树(search tree)来测试所有可能的移动和位置。但是，AI无法处理大量棋子的可能性移动，或评估每个可能性棋盘位置的强度。

借助深度强化学习的技术和新颖的搜索算法，DeepMind开发了AlphaGo，这是第一个击败了人类职业围棋选手的计算机程序，第一个击败了围棋世界冠军的程序，也可以说是历史上最强的围棋选手。

Alpha Go的升级版本被称为Alpha Go Zero。该系统源于一个对围棋规则一无所知的神经网络。该神经网络通过与功能强大的搜索算法相结合，不断和自己下棋，与自己进行对抗。在重复进行游戏的过程中，神经网络会通过持续调整和更新，来预测下棋的步骤，并最终成为游戏的赢家。通过不断的迭代，升级后的神经网络与搜索算法重新组合，以提升系统的性能，并不断提高与自己对弈的水平。

你该知道的深度强化学习相关知识

图片来源：从零开始的Alpha Go Zero(请参见--https://deepmind.com/blog/article/alphago-zero-starting-scratch)

在石油和天然气行业中的应用

荷兰皇家壳牌公司一直在其勘探和钻探工作中通过强化学习的部署，以降低高昂的天然气开采成本，并改善整个供应链中的多个环节。那些经过了历史钻探数据训练的深度学习算法，以及基于物理学的高级模拟技术，让天然气钻头在穿过地表后，能够智能地移动。深度强化学习技术还能够实时地利用来自钻头的机械数据(如：压力和钻头的温度)，以及地表下的地震勘测数据。欲知详情，请参见--https://www.forbes.com/sites/bernardmarr/2019/01/18/the-incredible-ways-shell-uses-artificial-intelligence-to-help-transform-the-oil-and-gas-giant/#187951c42701。

自动驾驶

虽然不是主流应用，但是深度强化学习在自动驾驶汽车的各种挑战性问题上，也发挥着巨大的潜力。其中包括：

车辆控制
坡道合并
个人驾驶风格的感知
针对安全超车的多目标强化学习

欲知详情，请参见-- https://arxiv.org/pdf/1901.01536.pdf。

总结

你该知道的深度强化学习相关知识

即将开播：5月14日，Jenkins在K8S下的三种部署流程和实战演示

相关推荐