zengyu00 2020-07-05
AI芯片加速图像识别
AI chip accelerates image recognition
法国研究机构CEA-Leti和LIST在2020年VLSI研讨会上展示了一种概念验证芯片,该芯片集成了低功耗物联网节点和人工智能加速器,并展示了超快的唤醒时间,峰值至空闲功耗降低了1500倍。对于机器学习任务,该节点每秒可提供高达1.3tera次运算/瓦特(TOPS/W)或36个gop。
这款名为SamurAI的芯片在占用检测系统中进行了测试,该系统包括PIR传感器、224×224像素黑白摄像头、FeRAM和低功率收音机。日均系统功耗为105µW,SamurAI消耗了预算的26%。该系统使用PIR传感器,每天占用房间8小时,间隔5s,摄像机每秒1帧,收音机10x。
SamurAI System
amurAI使用了两个片上子系统:一个低功耗的无时钟事件驱动唤醒控制器,可以在207ns内启动;一个按需子系统包括一个具有深度睡眠模式的RISC-V CPU加上PNeuro-AI加速器和密码加速器。
这种双子系统方案可以实现15000倍的峰值与空闲功率比。下图显示了不同模式下的功耗;空闲模式仅消耗6.4µW。在CPU和AI加速器运行的情况下,功耗为96 mW。
该芯片基于STMicro的28nm全耗尽绝缘体上硅(FD-SOI)工艺,功率图在没有体偏压的情况下给出。硅的尺寸为4.5mm2,具有6个可切换的功率域。
SamurAI power consumption measurements by power modes (the modes are L-R: idle, wake-up controller (WuC) only, wake-up controller and wake-up radio (WuR), wake-up controller and peripherals, and CPU running
AI accelerator
该芯片的人工智能加速器,这个团队称之为PNeuro的设计,是一种单指令、多数据(SIMD)可编程加速器。它由2个32x 8位处理单元组成,带有264kB多银行SRAM。它可以执行多达64个乘法累加(mac)每个周期。PNeuro块在2.8gops/0.48V时可以达到1.3tops/W,对于8位全连接的神经网络层,它可以在0.9V下达到36个GOPS。
与使用控制器RISC-V内核进行ML计算相比,使用PNeuro加速器使系统的总功耗降低了2.3倍。
SamurAI’s two-cluster PNeuro accelerator with 64 processing elements total
PNeuro’s energy efficiency is 1.3 TOPS/W maximum and performance is 36 GOPS maximum。
该设计是为物联网应用而设计的,在长时间的“睡眠”之间需要零星的计算能力。与其连接到云端,如果节点本身能够处理AI工作负载,则通常可以更快地完成,并且由于数据不在系统外部共享,因此不会涉及隐私。这可能包括使用摄像机或其他传感器进行人员检测或场景识别等应用。