dujiahaogod 2017-09-21
选自arXiv
机器之心编译
参与:黄小天、刘晓坤
近日,田渊栋等人在 arXiv 上发表了一篇题为《When is a Convolutional Filter Easy To Learn?》的论文,分析了用于学习带有 ReLU 激活函数的卷积滤波器的(随机)梯度下降算法的收敛,整个过程没有依赖输出分布的任何特定形式,论证也只用到了 ReLU 定义,这与先前受限于标准高斯分布的工作相反。同时这一理论也证明了深度神经网络中两阶段的学习率策略。
深度卷积神经网络(CNN)已经在很多应用中展现出了人工智能的最佳水平,如计算机视觉、自然语言处理和围棋等复杂游戏。尽管目标函数具有非常高的非凸性,简单的一阶算法(如随机梯度下降及其变体)通常可以成功地训练这样的网络。另一方面,卷积神经网络的成功从优化角度来考虑仍然是难以捉摸的。
当输入分布不受约束时,已有的结果大多数为负,如 3 节点神经网络学习的硬度(Blum & Rivest,1989)或非重叠卷积滤波器(Brutzkus & Globerson,2017)。最近,Shamir 等人表明学习单层全连接神经网络对于某些特定的输入分布来说是非常困难的。
这些负面结果告诉我们,为了解释 SGD 学习神经网络的成功,还需要对于输入分布做出更强假设。最近的一系列研究(Tian,2017;Brutzkus & Globerson,2017;Li & Yuan,2017;Soltanolkotabi,2017;Zhong 等人,2017)假设输入分布为标准高斯 N(0,I),并展示了(随机)梯度下降能够在多项式时间内得到具有 ReLU 激活的神经网络。
图 1.(a)研究人员正在考虑的网络架构。给定输入 X,我们提取它的补丁 {Zi} 并将其传递至共享权重向量 w。随后输出会被发送到 ReLU 并加和产生最终的标签(以及评估)。(b)-(c)上,我们提出了两个收敛条件。我们希望数据与(b)高度相关,(c)更加集中于真值向量 w*。
这些分析的一个主要问题在于它们依赖于高斯分布的专门分析,因此不能推广到非高斯情况下(真实世界的分布情况)。对于一般输入的分布而言,我们需要新的技术。
在卡耐基梅隆大学、南加州大学和 Facebook 共同发表的这篇论文中,研究人员考虑了一种相对简单的架构:一个卷积层,随后跟着一个 ReLU 激活参数,然后是平均池化。形式上,以 x ∈ Rd 作为输入示例。例如,一张图片,我们从 x 中生成 k 个补丁,每个大小均为 p: Z ∈ R p×k,其中第 i 列是已知函数 Zi = Zi(x) 生成的第 i 个补丁。对于尺寸为 2,步幅 1 的滤波器,Zi(x) 是第 i 个和第 (i + 1) 个像素。因为对于卷积滤波器,我们只需要关注补丁而不是输入,在下面的定义和定理中,我们将 Z 作为输入,并将 Z 作为 Z 的分布:(σ(x) = max(x, 0) 是 ReLU 激活函数)。
如图 1(a)所示,很多计算机视觉研究都使用这样的结构作为网络的第一层 [Lin et al., 2013, Milletari et al., 2016]。研究员仅关注可实现的案例,其中训练数据由式(1)以及一些 Z 输入分布的未知参量 w∗生成,比如 `2 loss ` (w, Z) = 1/2 (f(w, Z) − f(w∗, Z))2,通过(随机)梯度下降方法学习,即:
其中ηt 是训练步长,在训练过程中可能发生变化,g(wt) 是一个随机函数,它的期望值等于 population gradient E [g(w)] = EZ∼Z [∇` (w, Z)]。研究员的训练目标是了解假如 w 经过(随机)梯度下降优化然后 w → w∗的情况下,发生了什么。
通过这样的设定,主要成果如下:
滤波器的可学习性:研究员展示了如果输入补丁之间高度相关(Section 3),即θ (Zi , Zj ) ≤ ρ(一些很小的ρ值,且ρ>0),那么随机初始化的梯度下降和随机梯度下降将在多项式时间内恢复滤波器。此外,强相互作用表明了更快的收敛速度。研究员在 [Tian, 2017] 公开声称,这是对非高斯输入分布的卷积滤波器(甚至是最简单的单层单神经元网络)的基于梯度的算法的第一恢复保证。
研究员正式提出了输入分布的平滑度和滤波器权重恢复的收敛速度之间的联系,其中平滑度的定义是活化区域的二次矩的最大和最小的本征值的比(Section 2)。研究表明,输入分布越平滑,收敛速度越快,其中高斯分布作为一个特例,收敛到了最紧致的范围。这个理论结果同样证实了由 [He et al., 2016, Szegedy et al., 2017] 提出的步长(随时间)可变的两态学习速率策略。
图 3:关于合成与真实数据的实验。(a)单层单个神经元模型对不同平滑度的输入分布的随机梯度下降的收敛率。较大的σ更平滑;(b)随机梯度下降的收敛率用于学习不同补丁亲近度的输入分布上的卷积滤波器。较大的σ2 更平滑。
论文链接:https://arxiv.org/abs/1709.06129
摘要:我们分析了用于学习带有 ReLU 激活函数的卷积滤波器的(随机)梯度下降算法的收敛行为,整个过程没有依赖输出分布的任何特定形式,我们的论证也只用到了 ReLU 的定义,这与先前受限于标准高斯分布的工作相反。我们表明带有随机初始化的(随机)梯度下降能够学习多项式时间中的卷积滤波器,收敛速度取决于输入分布的平滑度和补丁的接近度。据我们所知,这是对非高斯输入分布的卷积滤波器的基于梯度的算法的第一恢复保证。我们的理论也证明了深度神经网络中两阶段的学习率策略。尽管我们聚焦于理论,但也展现了论证理论发现的实验。