GMIS 2017 大会吴思演讲：视觉信息处理的动态法则

全球机器智能峰会（GMIS 2017），是全球人工智能产业信息服务平台机器之心举办的首届大会，邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战，兼顾学界与产业、科技巨头与创业公司，以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。

5 月 27 日，机器之心主办的为期两天的全球机器智能峰会（GMIS 2017）在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致辞，他表示：「我个人的看法是再过几年，我们 90% 的工作是人工智能提供的，就像我们今天大部分工作是机器提供的一样。我们知道人工智能会给我们提供一个更美好的未来。」大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会，并在主题演讲、圆桌论坛等互动形式下，从科学家、企业家、技术专家的视角，解读人工智能的未来发展。

下午，北师大认知神经科学与学习国家重点实验室教授吴思发表了主题为《视觉信息处理的动态法则》的演讲，他认为，人工智能应该向生物智能学习动态信息的处理，而要处理动态信息，预测是关键。以下是他的演讲内容。

机器学习取得的成功，有目共睹。但我今天是给机器学习目前的框架挑错的。对我们人类来说非常简单的任务，现在最好的深度学习也做不到。实际上，我们还可以从生物智能中获取灵感，引导下一步 AI 的发展。

这段时间我在思考，什么是深度学习，或者说对我们生物智能而言，什么是我们最需要紧迫解决的问题，我个人认为是动态信息处理。

有一种名为海鞘的古生物，小时候有大脑，它会游来游去寻找食物。但成年以后，它附在礁石上，不仅不活动，还吃掉大脑，不需要大脑了。

这隐含着什么意思呢？如果我们只做静态图片的分类任务，实际上，不需要大脑，我们的大脑更多地是处理复杂的运动环境当中、自然场景中的东西。所以，动态信息处理过程非常重要，这是生物智能与目前以深度学习为框架的人工智能之间重大的区别，值得大家去关注。

说到动态信息处理，我认为，最关键的是预测。由于时间有限，我就谈三个生物系统做预测的例子，给大家看看生物智能与目前的人工智能有什么样的区别。

第一，预测补偿信息传递的延迟。我们能快速地处理运动信息，因为运动信息处理对我们大脑来说，非常简单。再举一个简单的任务，我们看到一个光斑，然后我们就按键。整个过程，我们的时间花费是，首先，光信号变成电信号，花费我们 35 毫秒，其次，传到初级视皮层，我们意识到看到了它，这花费 55-75 毫秒。再次，视觉皮层识别这个物体，然后产生一个指令，通过脊髓控制我们手指的肌肉去按键，花费是 250 毫秒。

如果我们的大脑没有实时预测机制，我们是无法处理生活中的很多事情的。

举个菲勒打网球的例子，他的发球速度大约是每小时 200 公里，只有信号传到初级视皮层，才意识到看到网球。如果这花费 50 毫秒的话，就会带来 3 米误差。所以我们的大脑必须有一种内在机制，通过实时预测处理运动信息。这只是人类打网球，但对大自然的动物来说，看见猎物能否抓住，看见天敌能否逃跑，就是生与死的关键。所以这在我们的神经计算中非常重要。

实验神经科学家通过大量实验发现大脑有很好的预测系统，实验神经科学家经常研究头朝向的系统。

比如头现在头晃来晃去，实际上我内在有一组神经元，这个神经元就建立我内在的关于头朝向的表象。实验神经科学家发现，大脑很多脑区都存在这样头朝向的神经元，非常有意思的是，这个头朝向的神经元，它的内在表象是指向了未来。比如，有一个脑区是指向 25 毫秒之后的地方。

我的研究方向是计算神经科学，因此构建了一个网络模型来解释这种现象，我们发现，如果我们构建一个神经网络，再考虑神经元之间的负反馈的话，就容易产生这样一种 direction 的现象，可以很好地解释实验数据。

我们知道，生物学中非常重要的学说是达尔文的《进化论》。你或许会问，经过长久的进化，我们的信号传得还这么慢，为什么不能传得快一点？实际上，传递得慢对生物是有正面意义的，比如它可以帮我们整合多模态的信息，大家知道恒大队的孔卡，他踢球速度不快，但我觉得他很聪明，因为他充分利用场上的形势，做出很优化的选择、判断如何传球，所以，慢是有道理的。

实际上，生物进化，一方面每种动物会根据它自然生存的环境以及最适合生存的环境，适应到用特别的时间窗口处理信息。另一方面，如果物体高速运动，它又有补偿信息，那么它会补偿这个时间延迟。

我有一个朴素的愿望，我们是生物进化的结果，我们的大脑进化成如今的样子，是为了更好地适应环境。假设机器人，在日常环境中跟我们交流，一方面它需要慢，另一方面如果快速处理的话，又需要快。因此这两样要共同发展。个人认为，未来的机器人也会面临这样的问题。

第二个有关预测的例子，是我们图像理解的关键。我给大家做一个实验。如果你过去没有看过这张图，你很难猜测它的样子。我先把这张图片遮挡起来，你可以说它是牛，我也可以说这里面是手，可以说它是鱼。这表明，计算机视觉在我们生物大脑，面临一个问题，那就是我们做图象理解的时候，有两个操作。一个是图象分割，一个是图象识别。比如说，我把它分割成牛，那么，就识别成牛。分割成手或鱼，就识别成手或鱼。这就是鸡生蛋和蛋生鸡的问题，我没有分割我怎么识别，我没有识别我怎么分割。这也是计算机视觉在图象世界始终解决不了问题。

那么，人脑是如何做的呢？虽然不知道具体的机制，但大概的策略我们能明白，人脑的做法是猜测与印证，初级视皮层对输入不断地解析，然后传到高级视皮层，高级视皮层做猜测，猜测反传到初级视皮层，反复猜测与印证，最终进行识别。大量的实验表明，深度学习不具备这样的策略。

这只是一个框架，里面涉及很多细节，比如，如何猜测涉及记忆系统，如何表达物体的知识，知道知识后，如何去处理，很多计算神经科学家在攻克这样的问题。

第三个预测的例子，有关主动视觉。人的眼睛在每秒钟都会眨动三四次（这叫快速眼动），而眼睛会跳动着关注某些重要的地方，比如鼻子和嘴巴。我们选择性地看自然场景中对我们重要的信息。实际上，这是人类高级智能的表现，只有高等动物才有。

这涉及一个问题，物体没动，只是眼睛动，那么造成的结果，就是外界静止的物体在视网膜上来回乱跳，我们平时没有意识到这点，说明我们的大脑在区分由于眼动导致的物体跳动，而不是物体真正的运动。

我们和实验神经科学家合作，给猴子做这样的实验，记录神经元的感受叶，就是大脑的编码。简单理解，就是每个神经元负责一个空间区域。快速眼动，将要动，动了之后的那点时间，会把这个神经元的感受叶，神经元负责编码的区域，原来将要达到的位置，像香蕉一样拉长覆盖整个区域，因此，你眼动但不会觉得物体在动。这是发生在具体的眼动之前，所以也是预测。

最后，我总结一下，动态信息的处理，是生物智能的关键，要实现动态信息的处理，预测是关键。

GMIS 2017 大会吴思演讲：视觉信息处理的动态法则

相关推荐