太空飞船轨迹想要更精准？8-Bit实现零损耗

本文包含了以下重点内容：

• 一种新的8-Bit浮点格式，结合了DNN（深度神经网络）训练的见解，实现了一般矩阵算法（GEMM）在深度学习中模型精度的零损耗。

• 一种叫作“基块计算”的新技术。在分层应用中，仅使用了8-bit乘法和16-bit加法（代替了16-bit和32-bit的独立计算）进行矩阵和卷积计算。

• 在权重更新过程中应用了浮点随机舍入，实现了用16-bit精度进行更新（而不是32-bit）。

• 从综合效果来看，这项技术广泛适用于整套深度学习模型和数据集，同时完全保证精度。

这种方法的根基是近似计算。研究人员尝试在硬件中进行调整，使模型更牢固，同时通过专有架构获得高效收益。

太空飞船轨迹想要更精准？8-Bit实现零损耗

CDC1604是第二代48-bit计算机，用于美国海军导弹自动控制系统，每秒运行可超10万次。但是，如果用CDC1604运行苹果手机，它甚至无法提高自拍像素。因此，掌上机（手机）本有能力运行多个导弹系统，否则这些系统将需要房间大小的处理器。

计算机结构体系最初专门用于串行处理，随后使用DRAMs (动态随机存取存储器）优化高密度存储。但是，芯片表面处理区域价格高昂，且不适宜大量增加内存容量。神经网络存储器，必须存储输入数据、激活参数和权重参数等信息。

在一篇题为“使用8-bit浮点数训练深度神经网络算法”的论文中，作者Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen以及Kailash Gopalakrishnan，均来自IBM沃森研究中心。他们介绍了能使用8-bit浮动数（FP8）成功训练DNN（深度神经网络）并能同时保证精度的一项新技术。

这项突破的研究人员表示：“以往来说，高性能计算依赖于高精度的64-bit和32-bit浮点运算。但这种新方法保证了准确性，对一些科学任务的计算至关重要，比如模拟人类心脏，计算太空飞船轨迹等”。

但是，对于图像分类、语音识别等一类任务，近似计算比64-bit或32-bit提供的高精度计算更重要。

浮点的限制越低，驱动器也随之越小。比如，16-bit精度驱动器通常比32-bit高精度同类块小4倍。这种区域效率的提高直接有利于AI培训效果和工作负载性能的显著提升。

因此，高精度可以增强计算能力。在本文中，研究人员展示了全新的训练技术，并且最终将压缩方法加速了40-200倍。

早在2015年，IBM研究就已经展示了如何在32-bit到16-bit的推理过程中完全保证模型精度。

现在，16-bit训练和8-bit推理系统已经作为一项标准灌输至行业中。尽管有关8-bit和4-bit的精度推理工作还在进行，但最终也将成为行业标准。

与16-bit训练网络相关的主要挑战有：

• 在反向传播期间，是否该保持梯度计算和权重更新的保真度。

• 当矩阵乘法中的权重、误差和梯度降低到8-bit时，深度神经网络会遭受影响，最终精度明显下降。

• 此外，网络训练对算法收敛性有显著影响。

• 如今使用的32-bit权重更新系统，需要存储高精度权重和梯度的额外副本，价格高昂。

如何解决8-Bit浮点问题：

有一种新技术叫作“基块计算”，应用于卷积计算的时候，这种技术允许用8

-bit乘法和16-bit加法，去代替16-bit和32-bit的独立计算。并且，在权重更新中，浮点可随机舍入。

在“基块计算”中，累积计算被分解成块，由各深度学习点产品构成。研究人员已经做过测试，采用尺寸14nm的芯片检验这种技术，并用于训练ResNet50模型。结果表明，基块计算驱动器可以和降低精度的数据流驱动器一起使用，并且不会增加硬件开销。

作为基线，32-bit浮点的累积量会随向量长度呈线性增加趋势。在最接近舍入值的时候（比如：块=1），典型的16-bit浮点累积量将会面临极大的误差。（当长度 ≥ 4096时，累积停滞）。

这时，可以使用基块累积计算来填补误差，因为积累量的有效长度被“块”的大小所削减，以免被淹没。随机舍入的有效性如下：尽管由于舍入误差导致了在总体积累长度中存在轻微偏差，但是随机舍入值会遵循32-bit浮点结果。

这一成功实践为硬件培训平台进入新时代铺平了道路，该平台的性能是当前系统的两倍。

太空飞船轨迹想要更精准？8-Bit实现零损耗

编译组：姚宇歌、胡婷

太空飞船轨迹想要更精准？8-Bit实现零损耗

相关推荐