欲取代CNN的Capsule Network能为AI界带来革命性转折么？

大数据文摘作品

编译：余志文、Ether、钱天培

“卷积神经网络（CNN）的时代已经过去了！”——Geoffrey Hinton

酝酿许久，深度学习之父Geoffrey Hinton终于在上月发表了备受瞩目的Capsule Networks(CapsNet)。 Hinton本次挟CapsNet而来，大有要用它取代CNN的气势。那么，CapsNet相比CNN到底有哪些优势？它又是否能为AI界带来革命性转折呢？今天，文摘菌就来为大家科普一下这一深度学习的新里程碑。

首先，这位被誉为深度学习之父Geoffrey Hinto究竟是何许人也呢？在上世界50年代，深度神经网络的概念就已出现，从理论上来讲可以解决众多问题，但是一直以来却没有人知道该如何训练它，渐渐的也就被放弃。直至1986年，Hinton想到了通过反向传播来训练深度网络，标志了深度学习发展的一大转机。然而，受限于当时的计算机运算能力，直到2012年，Hinton的发明才得以一显神通。这一突破也为近年来人工智能的发展奠定了基础。

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

2017年 10月26日，Hinton又发表了一项开创性的论文——Capsule Networks（胶囊网络），或将再次改写深度学习的发展历程。（论文链接：https://arxiv.org/pdf/1710.09829v1.pdf）

关注大数据文摘，后台回复Hinton即可下载此篇论文。

传统神经网络中存在的问题

目前为止，CNNs(卷积神经网络)仍是最先进的图像分类识别方法。

简单来讲，CNNs通过逐层累加调整实现分类。它首先检测到边缘，然后是形状，然后是实际的识别对象。CNN的实现方式极具创新，然而在这一过程中却有一项重要的信息丢失了——特征之间的空间关系。下面是一个CNN工作原理的简化描述：

如果有两只眼睛，一只鼻子，一张嘴，那么这就是一张脸。

乍一看完全没问题啊，完美！那我们拿卡戴珊大姐的照片来试一下，看看会怎么样：

(前方高能……

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

请帮忙计算一下这位大姐的心理阴影面积……但话说回来，这也确实是两只眼睛，一个鼻子和一个嘴巴呀！我们很容易就能发现，这些特征的空间位置明显是错误的，不符合“脸”的特征，然而CNN在处理这一概念上却十分笨拙。

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

除了被图像的错误位置所迷惑，CNN在查看不同方向的图像时也很容易混淆。解决这个问题的方法之一，就是对所有可能的角度进行大量训练，但是这需要花费很多时间，而且似乎有些违反常理。

我们只要把Kim的照片颠倒一下，就能发现其性能的大幅下降：

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

颠倒的Kardashian被识别成了“炭黑色”

最后，卷积神经网络可能很容易受到白盒对抗攻击（攻击者知晓机器学习所用的算法和相关参数，并据此在对抗性攻击过程中与系统交互）。这种攻击在对象上嵌入了一个秘密的图案，由此使这张图片被错误识别。

讲到这，我们就不难理解为什么Hinton曾发表过这样的言论：“卷积神经网络的时代已经过去了”

胶囊网络“拯救世界”！

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

胶囊网络构架

胶囊网络的引入使我们能够充分利用空间关系，它可以实现以下逻辑：

如果有两个相邻的眼睛，眼睛下长了鼻子，鼻子下长了嘴巴：那么这就是一张脸。

你应该可以看到，这次我们定义的神经网络在处理卡戴珊大姐的照片过程中不会那么容易被糊弄了。

这种新的架构在以下数据集上也获得了更高的识别准确度。这个数据集经过了精心设计，是一个纯粹的形状识别任务，即从不同的角度来看也能识别物体。CapsNet在该数据集上打败了最先进的CNN，将错误数量减少了45％。

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

CapsNet能够识别出与上下对应的图像同属一个类别（动物，人类，飞机，汽车，卡车）。

另外，根据他们最近的研究成果，胶囊网络在对抗白盒攻击方面比卷积网络也更有效果。

训练CapsNet

要想使用胶囊网络，首先你得训练它——于是，我根据Hinton 的论文建立了一个Repo（非常感谢naturomics）.

以下指南将为你提供在MNIST数据集上训练的模型。（MNIST是手写数字的数据集，很适合用作测试机器学习算法的基准线）

1.复制Repo：

git clone https://github.com/bourdakos1/capsule-networks.git

2.安装 requirements文件:

pip install -r requirements.txt

3.开始训练!

python main.py

MNIST数据集包含6万个训练图像。默认情况下，该模型每次批处理的大小是128个，训练50次。每一次训练都是数据集的一次完整运行过程。由于每次批量大小是128，所以每次训练大约有468个批处理（60,000 / 128 ≈468）。

注意：如果你没有GPU，训练过程可能需要很长时间。你可以阅读这篇关于如何缩短训练时间的文章（链接：https://medium.freecodecamp.org/tracking-the-millenium-falcon-with-tensorflow-c8c86419225e）。

一旦我们的模型得到充分的训练，我们可以通过运行以下命令来测试它：

python main.py --is_training False

最后，我想指出，虽然胶囊网络看起来威力十足，但它现在仍然处在婴儿期。在训练庞大的数据集时，我们可能会遇到问题。但总体来说，我还是对胶囊网络的未来发展充满信心的。

欲取代CNN的Capsule Network能为AI界带来革命性转折么？

Pgwsunny

相关推荐

浅谈CNN和RNN

记初次调试CNN做文本向量表示

(Tensorflow)手把手CNN入门：手写数字识别

超干货｜使用Keras和CNN构建分类器（内含代码和讲解）

CNN与RNN比较与组合

程序员你知道到底是什么特征影响着CNN的性能吗？

Reddit热点 | 想看被打码的羞羞图片怎么办？CNN帮你解决

一文读懂最近流行的CNN架构（附学习资料）

Relation-Shape CNN：以几何关系卷积推理点云3D形状

如何从信号角度理解卷积神经网络？

图像识别泛化能力人机对比：CNN比人类还差得远

光学CNN层替换传统CNN层，超省电

「Tensorflow」手把手CNN入门：手写数字识别

神经网络诊断皮肤癌超越人类专家？来自医疗界的论文给出了证明

94页论文综述卷积神经网络：从基础技术到研究前景

使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

仅使用NumPy完成卷积神经网络CNN的搭建（附Python代码）

神经网络新发现：其实CNN的图像分类策略远比我们想象的简单！

神经网络目标计数概述：F R-CNN实现当前最佳的目标计数

如何从信号分析角度理解卷积神经网络的复杂机制？

了解卷积神经网络（CNN）

用Keras实现一个标准的CNN！

检测狗的品种，或许CNN分类器能给你一个满意的答案！

CNN在结构化数据上的应用-自动特征提取

在Google表格中构建深度神经网络

卷积神经网络的直观指南（Python实例）

PyTorch上实现卷积神经网络CNN的方法

机器不学习：NLP(5) TextCNN 调参，调包高手来了

机器不学习：如果你愿意一层一层剥开CNN的心

机器不学习：CNN-RNN结合的3D物体识别分类

机器不学习：卷积神经网络CNN入门实战

机器不学习：卷积神经网络CNN与图像处理方法论(1)

CNN与RNN比较与组合

干货 | 卷积神经网络入门这一篇就够了

如何从信号分析角度理解卷积神经网络的复杂机制？

卷积神经网络（CNN）之一维卷积、二维卷积、三维卷积详解

Reddit热点 | 想看被打码的羞羞图片怎么办？CNN帮你解决