AI 算法在 FPGA 芯片上还有这种操作？

作者 | 杨付收

出品 | CSDN（ID：CSDNnews）

碾压与崛起

AI算法的崛起并非一帆风顺的，现在的主流的NN类的卷积神经网络已经是第二波浪潮了，早在上个世纪80年代，源于仿生学，后又发展于概率学的早期AI算法已经取得了重大的进展，到1986年Rumelhart等人提出多层网络的反向传播算法（BP算法，这是AI算法可进行数据训练并能收敛的基础）后，第一波AI算法以“连接主义”的旗帜高高举起。

不幸的是，旗帜没举多久就开始偃旗息鼓，让位于基于统计学的算法，直到2006年，Hinton提出了“深度信念网络”的概念，从此，AI算法从“连接主义”变成“深度神经网络”再次华丽登场。

第一波AI算法之所以会快速落寞，不在于算法不够精美，是因为当时的cpu不够强大，算力完全无法适配当时的算法需求.第二次AI算法的崛起也并非算法足够惊艳，恰恰是证明了算力的崛起。

而且这算力的提供者并不是CPU，这种基于调度和内存交换的方式难以支持如此强大的AI算力缺口。

与此同时，基于异构计算的ASIC/FPGA/GPU也在快速崛起，其计算性能完全碾压CPU，有效的补充AI算力的缺口。

其中GPU迅速发展，成为目前AI崛起之路的最大收益者，然而GPU最初的设计目的不是针对AI算法而是处理图形图像的，因为图像上每个像素点处理的过程和方式都十分相似，所以GPU的构成相对简单，有数量众多的计算单元和用于并行的流水线，正是这种单指令流多数据流的设计模式，特别适合处理大量的类型统一的数据。

这也是在用GPU处理AI算法时，batchsize不能太低的原因。而在其他方面，如面积/功耗/能耗比方面，GPU也便成了弱势，相比较而言，ASIC芯片从一开始便是为AI而生，能效比高，不会有冗余，功耗低，适合算法稳定且要求的应用。

其缺点也是硬件为算法而定制，导致其只能运行特定的算法，当然，能做出通用AI算法的ASIC芯片是业界的终极目标。

而同时，作为ASIC的共轭形式存在的FPGA越来越受重视，FPGA能效比高，可编程逻辑，计算效率高，FPGA 同时拥有控制流并行和数据并行，是天生适合异构计算的芯片，目前开发FPGA应用方面还有很多潜能可挖。

通用Or灵活

一个基本的认知是ASIC虽然高效，但只能走专业化定制化的部分，ASIC制作成本很高，而算法一直在持续更新，如何解决这个矛盾呢？

是否可以做一个通用的ASIC来解决算力提升和灵活性的问题？寒武纪的NPU和google的TPU给出了答案，两者的实现虽然不同，但思路是一致的。

即：既然NN算法可以拆分成不同的算子，设计的硬件建模应该全部支持这些算子从而解决通用性问题，并建立相应的指令集来解决不同算子的组合，来解决灵活性的问题。当然，核心模块还是围绕计算量最大的模块卷积进行的。那么,在实现方式上它们又有哪些共同点和不足呢?