腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

国际机器学习会议（ICML）是世界上最重要的人工智能会议之一，该会议主要致力于推动机器学习相关技术的发展和交流。在每年的 ICML 上，我们都能看到与机器学习密切相关的各个方面的前沿研究，其中既有在各个机器学习分支上的最新进展，也有机器学习技术在不同领域的全新应用。

ICML 2019 （第36 届国际机器学习会议）于当地时间 6 月9 日 - 15 日在加利福尼亚州长滩举办，今年大会共收到 3424 篇论文投稿，其中 774 篇被接收（接收率为22.6%）。

这是腾讯AI Lab 第三次参加此顶级会议，今年共六篇论文入选，涉及神经网络压缩、小样本学习和强化学习等多个研究方向。去年文章的信息见这里。下面将介绍今年这些论文以及其中新提出的算法和见解：

1．基于协同通道剪枝的深度神经网络压缩

Collaborative Channel Pruning for Deep Networks

论文地址：

http://proceedings.mlr.press/v97/peng19c/peng19c.pdf

本文由腾讯AI Lab主导，与中国科学院深圳先进技术研究院合作完成。深度神经网络在多个应用领域中都取得了巨大成功，但是深度神经网络也具有高昂的计算成本，这限制了其在更多场景中的应用，比如移动设备。

本文提出了一种名为“协同通道剪枝”的模型压缩算法，可以在精度几乎无损的前提下有效降低模型的计算开销，其具体做法是通过量化分析各个通道对损失函数的联合影响来决定卷积层中各个通道的保留与否。然后再将通道选择的过程建模为一个有约束的0-1 二次优化问题。本文还为该问题中所用到的Hessian 矩阵提出了一种高效的近似算法。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

协同通道剪枝算法

实验结果表明，与已有的同类算法相比，该算法可以在相似的模型复杂度下达到更高的预测精度。

应用价值：该算法可以有效提高深度学习模型的计算效率，促进其在移动端应用、安防监控等计算资源受限的诸多场景中的推广和应用。

2．基于层次任务结构的元学习

Hierarchically Structured Meta-learning

论文地址：

http://proceedings.mlr.press/v97/yao19b/yao19b.pdf

本文由腾讯AI Lab 主导，与宾夕法尼亚州立大学合作完成。通过充分利用历史任务中学习到的知识，元学习可以快速进行小样本学习。然而，全局共享可迁移知识的元学习算法也存在巨大的难题，即任务的不确定性和异质性。

为了解决这一难题，本文在基于梯度的元学习的框架之上提出了一种基于层次任务结构的元学习算法（HSML）。受人类组织历史知识的方式的启发，研究者采用一个层次化的聚类结构来对任务进行聚类，并针对不同簇的任务定制相应的可迁移知识。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

涉及三个关键阶段的HSML 框架。（a）任务表征学习：使用一个自动编码器聚合器（比如池化聚合器、循环聚合器）来学习任务的表征。（b）分层式任务聚类：基于前面的任务表征学习，通过这种可微分的分层式聚类结构来学习软聚类分配。图中更暗的节点表示更可能被分配的聚类。（c）知识适应：接下来使用一个参数门（parameter gate）来将可迁移知识适应到特定于聚类的初始情况，这样仅需几个梯度下降步骤就能到达最优参数。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

HSML 的元训练算法

该算法不仅能通过知识定制解决任务异质性的难题，而且还能保留簇内相似任务之间的知识泛化。本文同时还探讨了该层次结构在连续学习环境中的延伸，以解决实际中任务关系动态变化的问题。实验结果表明这种算法在回归以及小样本图片分类问题上均能取得领先的性能。

应用价值：本文提出的元学习算法可被应用于有知识迁移需求的小样本机器学习问题，例如推荐系统的冷启动以及新兴领域的图片分类。

3．神经协同子空间聚类

Neural Collaborative Subspace Clustering

论文地址：

http://proceedings.mlr.press/v97/zhang19g/zhang19g.pdf

本文由澳大利亚国立大学、NEC Labs America、腾讯AI Lab、莫纳什大学合作完成，提出了神经协同子空间聚类方法，该方法是利用神经网络来发现采样于一组低维子空间的数据的聚簇。与先前方法不同，本方法没有利用谱聚类，因此能很好地扩展到大数据集。

该方法主要得益于建立了一个基于神经网络的分类器来确定任意两个数据是否在同一个子空间中。算法更本质的部分是构建了两个归属矩阵：一个基于分类器，另一个则基于子空间自表达性；并利用这两个归属矩阵进行协同监督训练。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

神经协同子空间聚类框架。其中A_s 是自表达层生成的归属矩阵，A_c 是分类器；它们在训练中通过选择高置信度部分来彼此监督。A_s 中的红色方框表示正例对（属于同一子空间）。相反，A_c 中的红色方框表示负例对（属于不同子空间）。归属度用阴影程度表示，浅灰色表示归属度高，深色则表示很低。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

神经协同子空间聚类算法

本文完整地对比了该算法和目前最好的聚类方法（包括具有深度子空间的聚类方法）的实验效果，验证了方法的有效性。

应用价值：本文的方法适用聚类问题，具体可应用到图片归档、商品归类和一般数据的自动分组等，聚类结果可用于数据解释、数据可视化等。

4．一种因子长度可变的分解机模型

RaFM: Rank-Aware Factorization Machines

论文地址：

http://proceedings.mlr.press/v97/chen19n/chen19n.pdf

本文由腾讯AI Lab主导，与清华大学合作完成。分解机模型是一类经典的通过低秩近似学习特征之间关系的模型，经典的分解机模型对于所有的特征都使用固定长度的因子。本文提出了一种因子长度可变的分解机模型，其中特征之间的交互来自于不同因子长度的分解机模型。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

对RaFM 的直观解释。其中，绿色是有更多样本的特征，黄色是有更少样本的特征；红色箭头表示两者过拟合，蓝色箭头表示欠拟合。（a）是高维的分解机，（b）是低维的分解机，（c）是RaFM。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

训练RaFM

实验发现，这样的改进一方面能在特征出现频率差别明显的情况下（实际数据通常是这种情况）取得更好的性能；另一方面也证明了该模型在存储、计算和训练方面的复杂度与单一因子长度的分解机模型相当，甚至在某些条件下会更低。本文提出的方法在回归任务和分类任务上都优于其它方法，并且只需使用更少的计算资源，因此在工业领域也有很强的应用价值。

应用价值：本文的方法在天天快报的实际数据上证明有效，可以做到模型训练更快、模型更小、准确率更高，可以用于信息流推荐等实际场景当中。

5．基于网格粒度控制的多智能体强化学习方法及其在游戏AI中的应用

Grid-Wise Control for Multi-Agent Reinforcement Learning in Video Game AI

论文地址：

http://proceedings.mlr.press/v97/han19a/han19a.pdf

本文由腾讯AI Lab主导，与悉尼科技大学合作完成，研究了游戏AI中的多智能体强化学习问题，其中智能体分布在网格世界环境中，并且智能体的数量可以在游戏中任意变化。上述问题的难点在于灵活地处理变化数量的智能体，并且同时实现智能体之间的高质量合作。目前已有的强化学习方法通常需要在这两个关注点之间做取舍。

本文提出了一种新的网络结构，可以学习任意数量的智能体在空间上的一种综合的表达，然后输出一个网格地图，对其中每一个网格都预测一个动作。每个智能体采纳它自己所占网格对应的动作，并且被独立的控制。通过将状态也表示成一种网格结构，然后采用了一种基于卷积操作的编码-解码结构，并使用这种结构作为策略网络。上面提出的结构可以通过卷积操作的感受野非常自然地处理多智能体合作的问题。

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

网格粒度控制架构示意图。虚线矩形框中即为策略网络，右侧则是策略函数与价值函数。

此外，由于卷积核在空间上是被共享的，所以这种操作可以实现快速的并行探索，即当某一个智能体探索到了一个好的状态动作转移，那么这个信息会立刻共享给其他智能体。上述网络结构可以很便捷地与多种常用的强化学习算法结合，比如PPO和Q学习算法。

研究者在《星际争霸II》的战斗场景中做了大量的实验并进行了详尽的分析，结果表明该方法十分有效。下面是一段演示视频：

视频加载中...

腾讯AI Lab入选论文详解：从协同通道剪枝到多智能体强化学习

相关推荐