40纳秒完成图像分类，图像传感器自带神经网络登上Nature

AI芯片还可以怎么搞？登上Nature的研究带来新启发。

过去，我们做图像分类都是分成好几步：先用传感器收集图像模拟信号，数模转换后再交给计算机处理。整个过程既耗能又费时，就像眼睛把图像传给大脑。

试想一下，如果人类眼睛可以直接处理图像——不用劳烦大脑，那视觉图像信息的处理速度岂不是可以大大提升？

今天，Nature这篇新研究开拓性在于，直接让“眼睛”处理图像。而且效果反馈也相当震撼：

利用新感光元件，仅仅40纳秒即可完成图像分类，比交给计算机处理快了几十万倍。

真是不得了。

光电二极管网络

核心来说，研究团队在芯片上构建了一个光电二极管网络，并选择2D半导体二硒化钨（WSe2）作为光敏材料。

△单个二硒化钨光电二极管示意图

光电二极管阵列由27个具有良好均匀性、可调性和线性度的检测器组成，排列为3×3的成像阵列，像素大小约为17×17μm，每个像素由3个二硒化钨光电二极管（子像素）组成，其对光的响应度可以通过栅极电压调节。

也就是说，可以通过改变施加的电压来调节半导体对光的响应，从而调节每个二极管的灵敏度。

实际上，这就将光电传感器网络变成了神经网络，将光学传感和神经形态计算结合起来，使其能够执行简单的计算任务。

改变二极管的灵敏度，就相当于改变神经网络中的权重。

把权重放在传感器上

与其他神经不同的是，这套系统的权重不是存在计算机的内存和硬盘里，而是直接集成在图像传感器上。

实验中使用的有硒化钨光电二极管制成的特殊门电路。它的特殊就在于可以调制，相当于神经网络的训练。

随着外接偏置电压的不同，二极管对光线的敏感程度也不同，等于将网络的训练结果直接放在传感器端。

之前的神经网络都是将训练权重存储在外部存储器上，通过电路发送到每个检测器件上。

就像电脑的内存，断电后就会丢失存储信息。

而这一套设备，更像是硬盘，即使掉电后也能将权重信息存储下来。

研究人员将调制的电极也就是浮栅（floating gate）埋在氮化硼绝缘层中，一开始先对氧化铝绝缘层中的栅极加上电压，接着撤去外部电压。

浮栅依旧能在接下来的2300秒内维持对光电二极管的调制，直到改变外部偏置电压为止。

研究人员用这种方法实现了两种类型的神经网络：分类器和自动编码器。

在分类器中，光电二极管阵列、芯片感知器以及在芯片外的非线性激活函数一起运行。这种类型的神经代表一种监督学习算法，该算法能够将输入图像P分为不同的输出类别y。

实际效果如何呢？他们3×3像素制作了一组“简陋”的字母，分别是n、v、z。

图像传感器经过训练后，只需测量对应电路的电流是否为0，就能知道是哪个字母。

通过电压随时间的变化图可以看出，当传感器接受到图像40ns后，n和v两种输入产生的电压开始出现巨大的差异，约100ns后差异达到最大。

第二种神经网络是自动编码器，可以在无监督的训练过程中学习输入图像P的有效表示。它与解码器一起使用，对解码器进行训练后，就可以在其输出中重现图像。

编码器由光电二极管阵列本身构成，解码器由外部电子器件构成。

在这个过程中，图像的传输数据得到了压缩。

潜力巨大，但仍需大量后续研究

40纳秒就分辨出了两张不同的图像，AI视觉仿佛朝着人类大脑的效率更进一步。

但需要说明的是：这一令人兴奋的新技术，距离实际应用，还有很长的路要走。

首先，由于光电二极管阵列仅由27个检测器组成，最大只能处理3×3的图像。

其次，想要真正应用于自动驾驶和机器人技术，视觉系统需要捕获具有广阔视野的三维动态图像和视频。而现在，该技术是将3D视觉信息转换成2D来处理，丢失了运动信息和深度。

其图像传感器阵列的平面形状，也限制了广角相机的能力。

此外，根据Nature的报道，论文中描述的设备很难在昏暗光线下成像。并且，其设计需要高电压和大功率，相比之下，生物神经网络中每项操作消耗的能量仅为10-15到10-13焦耳。

从工艺角度上讲，芯片所采用的薄半导体目前很难大面积生产加工。

而且，尽管图像传感器兼具了采集和计算功能，减少了模数转换，但外部电路仍然存在固有延迟问题，还是会影响整个系统的等待时间。

不过，虽然还有很大的研究空间，在传感器中计算的相关研究，推动了AI硬件的进一步发展。而这样的研究思路，也不仅仅局限于计算机视觉，可以扩展到听觉、触觉等其他物理输入中。

其他尝试

人们对快速处理图像信息的要求越来越高，很多科学家都在研究在输入端处理图像的方法。

最近来自荷兰和美国学者也发明了一种在传感器端直接处理图像的方法。

不过他们不是输出图像的分类，而是输出图像的边缘，这对于目标检测和语义分割有重要的意义。

他们在传感器前方加入了一个“超表面”：不到半毫米厚的蓝宝石薄片，镀上206 nm厚、142 nm高、间距300 nm的硅长条。

把它放置在CCD感光芯片的表面上时，超表面的作用就像一个透镜，光线只能以陡峭的角度射向它，而过滤掉入射角很小的光。

图像的特征是由不同光波的组合而成，滤除了光波携带的其他细节，仅留下了较尖锐的分量，例如人脸的边缘，而不是单色的背景。

整个过程仅需要150纳秒的时间，而交给计算机处理需要几毫秒，二者相差4个数量级。

研究团队

最后介绍下研究团队，来自奥地利维也纳工业大学的Unterrainer group。

论文一作：Lukas Mennel，是电气工程与光子学专业在读博士，曾作为访问学者赴MIT交流学习，研究量子光子学。