ernestlishun 2018-02-06
近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每⼀个用户迅速发现宝贝、在智能客服中赋予阿里⼩蜜这类的客服机器⼈对应的决策能力、在广告系统中实现了基于强化学习的智能调价技术,因而根据顾客的当前状态去决定如何操作调价。点击「阅读原文」下载此书籍。
下载地址:http://techforum-img.cn-hangzhou.oss-pub.aliyun-inc.com/1517812754285/reinforcement_learning.pdf
强化学习(RL)是关于序列决策的一种工具,它可以用来解决科学研究、工程文理等学科的一系列问题,它也是围棋程序 AlphaGo 的重要组成部分。在 Richard Sutton 的描述中,交互式学习几乎是所有学习与智能理论的基石,而强化学习就是这样的一种理想条件下实现交互式学习的方法。
在探讨阿里的强化学习实践书籍前,我们需要明确几个基本概念。首先,监督学习和强化学习之间的主要区别在于收到的反馈是评估性的还是指导性的。指导性反馈提示如何达到目标,而评估性反馈告诉你达到目标的程度。监督学习一般是基于指导性反馈来解决问题,而强化学习则基于评估性反馈解决问题。因此在很多情景中,强化学习这种评估性的反馈使其具有格外的优势与强大的性能。
因为存在这些差别,阿里表明基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为⼀种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法,在⼀些阿里具体的业务场景中进行了很好的实践并得到⼤规模应用。
实际上正如阿里的这本书所述,如果把搜索引擎看作智能体(Agent)、把用户看作环境(Environment),则商品的搜索问题可以被视为典型的顺序决策问题(Sequential Decision making Problem):
(1) 用户每次请求 PV 时,Agent 做出相应的排序决策,将商品展示给用户;
(2) 用户根据 Agent 的排序结果,给出点击、翻页等反馈信号;
(3) Agent 接收反馈信号,在新的 PV 请求时做出新的排序决策;
(4) 这样的过程将⼀直持续下去,直到用户购买商品或者退出搜索。
在以上问题的形式化中,Agent 每⼀次策略的选择可以看成⼀次试错(Trial-and-Error),在这种反复不断地试错过程中,Agent 将逐步学习到最优的排序策略。而这种在与环境交互的过程中进行试错的学习,正是强化学习(Reinforcement Learning,RL)的根本思想。
除了上述所述基于强化学习的实时搜索排序,阿里在很多任务或功能上都采用了强化学习的解决方案。以下展示了该书籍的主要目录,读者可以了解到底阿里在哪些业务或实践上借助强化学习而实现更好的性能。
第一章 基于强化学习的实时搜索排序策略调控
1.1 背景
1.2 问题建模
1.2.1 强化学习简介
1.2.2 状态定义
1.2.3 奖赏函数设定
1.3 算法设计
1.3.1 策略函数
1.3.2 策略梯度
1.3.3 值函数的学习
1.4 奖赏塑形
1.5 实验效果
1.6 DDPG 与梯度融合
1.7 总结与展望
第二章 延迟奖赏在搜索排序场景中的作用分析
2.1 背景
2.2 搜索排序问题回顾
2.3 数据统计分析
2.4 搜索排序问题形式化
2.5 理论分析
2.5.1 马尔可夫性质
2.5.2 折扣率
2.6 实验分析
第三章 基于多智能体强化学习的多场景联合优化
3.1 背景
3.2 问题建模
3.2.1 相关背景简介
3.2.2 建模方法
3.3 应用
3.3.1 搜索与电商平台
3.3.2 多排序场景协同优化
3.4 实验
3.4.1 实验设置
3.4.2 对比基准
3.4.3 实验结果
3.4.4 在线⽰例
3.5 总结与展望
第四章 强化学习在淘宝锦囊推荐系统中的应用
4.1 背景
4.1.1 淘宝锦囊
4.1.2 锦囊的类型调控
4.1.3 ⼯作摘要
4.2 系统框架及问题建模
4.2.1 系统框架
4.2.2 问题建模
4.3 算法及模型设计
4.3.1 主体框架
4.3.2 分层采样池
4.3.3 基准约减
4.3.4 算法流程
4.4 实验与总结
第五章 基于强化学习的引擎性能优化
5.1 背景
5.2 问题建模
5.2.1 状态定义
5.2.2 动作空间设计
5.2.3 状态转移函数
5.2.4 奖赏函数的设计
5.3 算法设计
5.3.1 Loss Function
5.3.2 Actor-crtitic 方法
5.4 理论分析
5.5 实验效果
5.6 总结
第六章 基于强化学习分层流量调控
6.1 背景
6.2 问题建模
6.2.1 Dynamic Action Boundary by CEM
6.3 实验效果
6.4 总结与展望
第七章 风险商品流量调控
7.1 背景
7.1.1 为什么进行风险商品流量调控
7.1.2 为什么使用强化学习调控
7.2 基于强化学习的问题建模
7.2.1 状态空间的定义
7.2.2 动作空间的定义
7.2.3 奖赏函数的定义
7.2.4 模型选择
7.2.5 奖赏函数 scale
7.3 流量调控系统架构
7.4 线上效果
第八章 虚拟淘宝
8.1 背景
8.1.1 强化学习⾯临的问题
8.1.2 虚拟淘宝
8.2 学习用户行为:监督学习
8.3 学习用户意图:逆强化学习
8.3.1 逆强化学习概述
8.3.2 学习用户意图
8.3.3 生成对抗式模仿学习
8.4 构建用户行为模拟器
8.4.1 问题建模
8.4.2 算法设计
8.4.3 实验结果
第九章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化
9.1 背景
9.2 问题建模
9.2.1 奖赏
9.2.2 动作
9.2.3 状态定义
9.3 建模粒度
9.4 模型选择
9.5 探索学习
9.6 业务实战
9.6.1 系统设计
9.6.2 奖赏设计
9.6.3 实验效果
9.7 总结与展望
第十章 策略优化方法在搜索广告排序和竞价机制中的应用
10.1 业务背景
10.2 ⼴告排序和竞价的数学模型和优化方法
10.3 ⾯向⼴告商、⽤户和平台收益的排序公式设计
10.4 系统简介
10.4.1 离线仿真模块
10.4.2 离线强化学习进⾏排序策略模型初始化
10.5 在线排序策略模型优化
10.6 实验分析
10.7 总结
第十一章 TaskBot -阿里小蜜的任务型问答技术
11.1 背景和问题建模
11.2 模型设计
11.2.1 Intent Network
11.2.2 Belief Tracker
11.2.3 Policy Network
11.2.4 模型
11.3 业务实战
11.4 总结
第十二章 DRL 导购-阿里小蜜的多轮标签推荐技术
12.1 背景
12.2 算法框架
12.3 深度强化学习模型
12.3.1 强化学习模块
12.3.2 最终模型
12.4 业务实战
12.5 总结和展望
最后,强化学习在阿里巴巴内部的实践远不止于此,这本电子书只介绍了其中的⼀部分。我们希望这本书能有助于读者了解强化学习在业界的应用,并从实践和业务的角度了解阿里在商业化技术的能力。