神经网络求解新思路：OpenAI用线性网络计算非线性问题

我们展示了深度线性网络(使用浮点运算实现)实际上并不是线性的，它可以执行非线性计算。我们利用这一点使用进化策略在线性网络中寻找参数，使我们能够解决重要问题。

神经网络通常由一个线性层和非线性函数(比如 tanh 和修正线性单元 ReLU)堆栈而成。如果没有非线性，理论上一连串的线性层和单一的线性层在数学上是等价的。因此浮点运算是非线性的，并足以训练深度网络。这很令人惊讶。

背景

计算机使用的数字并不是完美的数学对象，而是使用有限个比特的近似表示。浮点数通常被计算机用于表示数学对象。每一个浮点数由小数和指数的组合构成。在 IEEE 的 float32 标准中，小数分配了 23 个比特，指数分配了 8 个比特，还有一个比特是表示正负的符号位 sign。

神经网络求解新思路：OpenAI用线性网络计算非线性问题

按照这种惯例和二进制格式，以二进制表示的最小非零正常数是 1.0..0 x 2^-126，以下用 min 来指代。而下一个可表示的数是 1.0..01 x 2^-126，可以写作 min+0.0..01 x 2^-126。很显然，第一和第二个数之间的 gap 比 0 和 min 之间的 gap 小了 2^20 倍。在 float32 标准中，当一个数比最小的可表示数还小的时候，则该数字将被映射为零。因此，近邻零的所有包含浮点数的计算都将是非线性的。(而反常数是例外，它们在一些计算硬件上可能不可用。在我们的案例中通过设置归零(flush to zero，FTZ)解决这个问题，即将所有的反常数当成零。)

因此，虽然通常情况下，所有的数字和其浮点数表示之间的区别很小，但是在零附近会出现很大的 gap，而这个近似误差可能带来很大影响。

神经网络求解新思路：OpenAI用线性网络计算非线性问题

这会导致一些奇怪的影响，一些常用的数学规则无法发挥作用。比如，(a + b) x c 不等于 a x c + b x c。

比如，如果你设置 a = 0.4 x min，b = 0.5 x min，c = 1 / min。

则：(a+b) x c = (0.4 x min + 0.5 x min) x 1 / min = (0 + 0) x 1 / min = 0。

然而：(a x c) + (b x c) = 0.4 x min / min + 0.5 x min x 1 / min = 0.9。

再比如，我们可以设置 a = 2.5 x min，b = -1.6 x min，c = 1 x min。

则：(a+b) + c = (0) + 1 x min = min

然而：(b+c) + a = (0 x min) + 2.5 x min = 2.5 x min。

在这种小尺度的情况下，基础的加法运算变成非线性的了!

使用进化策略利用非线性

我们想知道这种内在非线性是否可以作为计算非线性的方法，如果可以，则深度线性网络能够执行非线性运算。挑战在于现代微分库在非线性尺度较小时会忽略它们。因此，使用反向传播利用非线性训练神经网络很困难或不可能。

我们可以使用进化策略(ES)，无需依赖符号微分(symbolic differentiation)法就可以评估梯度。使用进化策略，我们可以将 float32 的零点邻域(near-zero)行为作为计算非线性的方法。深度线性网络通过反向传播在 MNIST 数据集上训练时，可获取 94% 的训练准确率和 92% 的测试准确率(机器之心使用三层全连接网络可获得 98.51% 的测试准确率)。相对而言，相同的线性网络使用进化策略训练可获取大于 99% 的训练准确率、96.7% 的测试准确率，确保激活值足够小而分布在 float32 的非线性区间内。训练性能的提升原因在于在 float32 表征中使用非线性的进化策略。这些强大的非线性允许任意层生成新的特征，这些特征是低级别特征的非线性组合。以下是网络结构：

神经网络求解新思路：OpenAI用线性网络计算非线性问题

雜貨鋪

相关推荐

Node.js 前后端分离开发新思路

Web设计流程优化：网页效果图设计新思路

SEO优化的发展趋势和4点新思路

web前端div层被flash层遮盖新思路解决方案

《智能工厂设备配置研究》：智能工厂的应用新思路

独家｜陆化普：大数据、AI解决交通管理难题的新思路

新思路，10分钟带你了解Python！

腾讯AI Lab联合研究登上全球第三期刊探秘心脏病理研究新思路

从云计算谈IT建设的新思路和新方法

Unity 播放透明视频新思路

反SPAM新思路—换Z-BLOG的验证码！