AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

来源：新智元

本文共多图，建议阅读10分钟。

为你分享Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出的强化学习中要注意的10大要点。

[ 导读 ]近日，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看，也许能少走点弯路。

近日，在南非斯泰伦博斯举行的Deep Learning Indaba活动上，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上，引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议，非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧！

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

1、在评估中产生进步

客观、量化的估计会产生进步，对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究：确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究：提出假设，在宽泛的条件下验证假设，与相似结果对比，而不是与最先进的结果对比。重要的是对结果的理解，而不是追求排名。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功，它几乎永远比算法的起点重要。最终，好的算法总是无限资源条件下的最优解决方案。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论：要广泛验证，建立现实的机器学习环境。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

4、信任智能体的经验

经验（包括观察、动作、奖励）是指深度学习的数据。信任这些经验，将其作为唯一知识来源。尽管这些经验看上去不可学习，但最终长期来看，经验终将取得成功。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

5、状态是主观的

智能体应该基于经验建立自身的状态，智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

6、控制数据流

智能体处于大量数据流传感器环境中，智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找，而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内，对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

8、从想象的经验中进行学习

想象接下来会发生什么，从想象的经验中进行学习，同时关注在当前时刻的值函数估计。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

9、加强函数逼近器

差异化网络架构是一种有力工具，可以用来:以丰富的方式表示状态，实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构，可以降低算法的复杂度，增加网络架构的可表达性。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代：“美好的”老式人工智能。手动控制预测，不学习任何内容。

第二代：浅度学习。手动控制特征，学习预测。

第三代：深度学习。手动控制算法（优化器、目标、架构），学习特征和端对端预测。

第四代：Meta学习。无手动环节，学习算法、特征和端对端预测。

参考链接：https://twitter.com/DeepIndaba/status/1040234486250782721

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

小白将

相关推荐

研究员准备让智能设备用AI来判断你的声音来自哪里

融合与发展：数据科学研究院RONG研究员首次工作汇报会圆满结束

格拉斯哥大学研究员开发监督机器人，督促小朋友洗手预防疾病

谷歌高级研究员Nature发文：避开机器学习三大「坑」

阿里巴巴研究员刘国华：阿里巴巴智能运维体系建设

抢人大战中，那些选择留在高校的AI研究员们

微软资深研究员详解基于交错组卷积的高效DNN｜公开课笔记

微软资深研究员详解基于交错组卷积的高效DNN

CVPR PAMI青年研究员奖Andreas Geiger：自动驾驶中的计算机视觉

前微软亚洲研究院资深研究员梅涛博士加盟京东

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

资讯｜前微软首席研究员俞栋加盟腾讯AI Lab，担任副主任

刚刚结束的ICLR上，谷歌研究员再批当前AI炼金术通病

谷歌研究员再批：机器学习慢慢变成新时代的炼金术

阿里搜索事业部研究员徐盈辉：剖析阿里背后的强化学习技术

为什么谷歌、Facebook的AI研究员都坐在CEO身边？

阿里云智能视觉研究员华先胜：大数据智能分析、识别和搜索

轮胎后的大脑--斯坦福大学AI研究员正在教会汽车思考

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（PPT）

腾讯安全平台部专家研究员胡育辉：千亿黑产背后的破局之道

F-Secure研究员发现35年历史的SCP客户端漏洞

谷歌研究员：如果你有良心，不要在AI工作

2017CCAI专访丨当机器学习遇见“众包”——访微软雷德蒙研究院首席研究员周登勇

MIT研究员设计出微型芯片：可打造指甲盖大小无人机

剑桥分析背后研究员：扎克伯格是个伪君子