深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

随着AI的广泛应用，深度学习已成为当前AI研究和运用的主流方式。面对海量数据的并行运算，AI对于算力的要求不断提升，对硬件的运算速度及功耗提出了更高的要求。

目前，除通用CPU外，作为硬件加速的GPU、NPU、FPGA等一些芯片处理器在深度学习的不同应用中发挥着各自的优势，但孰优孰劣?

以人脸识别为例，其处理基本流程及对应功能模块所需的算力分布如下：

深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

为什么会有这样的应用区分?

意义在哪里?

想要知道其中的答案，需要我们先从CPU、GPU、NPU、FPGA它们各自的原理、架构及性能特点来了解。

首先，我们先来了解一下通用CPU的架构。

CPU

CPU(Central Processing Unit)中央处理器，是一块超大规模的集成电路，主要逻辑架构包括控制单元Control，运算单元ALU和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)。

简单说，

就是计算单元、控制单元和存储单元。

架构图如下所示：

CPU遵循的是冯诺依曼架构，其核心是存储程序、顺序执行。CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control)，相比之下计算单元(ALU)只占据了很小的一部分，所以它在大规模并行计算能力上极受限制，而更擅长于逻辑控制。

CPU无法做到大量矩阵数据并行计算的能力，但GPU可以。

GPU

GPU(Graphics Processing Unit)，即图形处理器，是一种由大量运算单元组成的大规模并行计算架构，专为同时处理多重任务而设计。

为什么GPU可以做到并行计算的能力?GPU中也包含基本的计算单元、控制单元和存储单元，但GPU的架构与CPU有所不同，如下图所示：

与CPU相比，CPU芯片空间的不到20%是ALU，而GPU芯片空间的80%以上是ALU。即GPU拥有更多的ALU用于数据并行处理。

以Darknet构建的神经网络模型AlexNet、VGG-16及Restnet152在GPU Titan X, CPU Intel i7-4790K (4 GHz) 进行ImageNet分类任务预测的结果：

备注：以上数据源自https://pjreddie.com/darknet/imagenet/#reference

由此可见，GPU处理神经网络数据远远高效于CPU。

总结GPU具有如下特点：

1 、多线程，提供了多核并行计算的基础结构，且核心数非常多，可以支撑大量数据的并行计算。

2、拥有更高的访存速度。

3、更高的浮点运算能力。

因此，GPU比CPU更适合深度学习中的大量训练数据、大量矩阵、卷积运算。

GPU虽然在并行计算能力上尽显优势，但并不能单独工作，需要CPU的协同处理，对于神经网络模型的构建和数据流的传递还是在CPU上进行。同时存在功耗高，体积大的问题。

性能越高的GPU体积越大，功耗越高，价格也昂贵，对于一些小型设备、移动设备来说将无法使用。

因此，一种体积小、功耗低、计算性能高、计算效率高的专用芯片NPU诞生了。

NPU

NPU (Neural Networks Process Units)神经网络处理单元。NPU工作原理是在电路层模拟人类神经元和突触，并且用深度学习指令集直接处理大规模的神经元和突触，一条指令完成一组神经元的处理。相比于CPU和GPU，NPU通过突触权重实现存储和计算一体化，从而提高运行效率。

NPU是模仿生物神经网络而构建的，CPU、GPU处理器需要用数千条指令完成的神经元处理，NPU只要一条或几条就能完成，因此在深度学习的处理效率方面优势明显。

实验结果显示，同等功耗下NPU 的性能是 GPU 的 118 倍。

与GPU一样，NPU同样需要CPU的协同处理才能完成特定的任务。下面，我们可以看一下GPU和NPU是如何与CPU协同工作的。

GPU的加速

GPU当前只是单纯的并行矩阵的乘法和加法运算，对于神经网络模型的构建和数据流的传递还是在CPU上进行。

CPU加载权重数据，按照代码构建神经网络模型，将每层的矩阵运算通过CUDA或OpenCL等类库接口传送到GPU上实现并行计算，输出结果;CPU接着调度下层神经元组矩阵数据计算，直至神经网络输出层计算完成，得到最终结果。

CPU 与GPU的交互流程：

1获取GPU信息，配置GPU id

2 加载神经元参数到GPU

3 GPU加速神经网络计算

4接收GPU计算结果

NPU的加速

NPU与GPU加速不同，主要体现为每层神经元计算结果不用输出到主内存，而是按照神经网络的连接传递到下层神经元继续计算，因此其在运算性能和功耗上都有很大的提升。

CPU将编译好的神经网络模型文件和权重文件交由专用芯片加载，完成硬件编程。

CPU在整个运行过程中，主要是实现数据的加载和业务流程的控制，其交互流程为：

1打开NPU专用芯片设备

2 传入模型文件，得到模型task

3 获取task的输入输出信息

4 拷贝输入数据到模型内存中

5 运行模型，得到输出数据

除NPU外，在功耗及计算能力上有一拼的还有FPGA。

FPGA

FPGA(Field-Programmable Gate Array)称为现场可编程门阵列，用户可以根据自身的需求进行重复编程。与 CPU、GPU 相比，具有性能高、功耗低、可硬件编程的特点。

FPGA基本原理是在芯片内集成大量的数字电路基本门电路以及存储器，而用户可以通过烧入FPGA 配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的，可重复编写定义，重复配置。

FPGA的内部结构如下图所示：

FPGA的编程逻辑块(Programable Logic Blocks)中包含很多功能单元，由LUT(Look-up Table)、触发器组成。FPGA是直接通过这些门电路来实现用户的算法，没有通过指令系统的翻译，执行效率更高。

我们可以对比一下

CPU/GPU/NPU/FPGA各自的特点

各芯片架构特点总结

/ CPU /

70%晶体管用来构建Cache，还有一部分控制单元，计算单元少，适合逻辑控制运算。

/ GPU /

晶体管大部分构建计算单元，运算复杂度低，适合大规模并行计算。主要应用于大数据、后台服务器、图像处理。

/ NPU /

在电路层模拟神经元，通过突触权重实现存储和计算一体化，一条指令完成一组神经元的处理，提高运行效率。主要应用于通信领域、大数据、图像处理。

/ FPGA /

可编程逻辑，计算效率高，更接近底层IO，通过冗余晶体管和连线实现逻辑可编辑。本质上是无指令、无需共享内存，计算效率比CPU、GPU高。主要应用于智能手机、便携式移动设备、汽车。

深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

flyfish

相关推荐

GPU相比FPGA更具优势，适应AI快速变化需求

赛灵思-5G和人工智能时代的赢家

嵌入式：一文看懂ASIC和FPGA的区别

FPGA加速：面向数据中心和云服务的探索和实践

西安交大获DAC19系统设计竞赛FPGA赛道亚军，这是他们的设计方案

如何将FPGA资源平民化？阿里工程师有了新突破

【F3使用场景】F3经典使用场景

【F3使用场景】F3经典使用场景

FPGA算法映射要点

3天上手，30天精通！——深度学习FPGA加速器设计

何为真正的 FaaS？阿里舜天平台做了四大创新

UIUC推出最新DNN/FPGA协同设计方案，助力物联网终端设备AI应用

英特尔推出新一代Stratix 10 FPGA加速卡：性能提升3倍

AI 算法在 FPGA 芯片上还有这种操作？

全新起点！英特尔发布Agilex FPGA，采用10纳米制程 | 极客头条

时间序列数据库(HiTSDB)压缩算法的FPGA加速

微软推出深度学习加速平台脑波计划：FPGA驱动实时人工智能

专访阿里云专家：异构计算，GPU、FPGA、ASIC芯片将三分天下

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

FPGA 2017最佳论文：深鉴科技ESE语音识别引擎获奖

赛灵思新CEO首秀 FPGA杀入重围，将与英伟达英特尔展开AI芯片大战

Hadoop尚能饭否？发布新版本支持GPU和FPGA

英特尔全球最大的FPGA创新中心落户重庆

打破AI算力瓶颈的，是基于FPGA的异构计算加速平台解决方案

FPGA学习笔记（三）——Verilog基本语法

DSP/FPGA——DSP与FPGA的供电问题

基于FMC接口的FPGA信号处理PCIE数据传输载板

FPGA笔试必会知识点1--数字电路基本知识

基于Xilinx FPGA的视频图像采集系统

FPGA基础知识8(FPGA静态时序分析)

FPGA中的“门”

FPGA基础知识（四）锁存器、触发器、寄存器和缓冲器的区别

数字电路设计中DSP和FPGA的比较与选择