huangjie0 2019-07-01
选自Medium
作者:Derek Hoiem
机器之心编译
参与:路、杜伟
计算机视觉顶会 CVPR 2019 刚刚落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 发表了一篇文章,认为计算机视觉正处于黄金时代,但它依靠的只是记忆,并非真正的智能。
随着人工智能的火热,近年来 AI 学术会议正受到人们越来越多的关注。CVPR 作为首屈一指的年度计算机视觉盛会,在机器学习领域享有盛名。该会议已于当地时间 6 月 16 日-20 日在美国加州长滩举行。据统计,CVPR 2019 共收到来自全球 14,104 位作者提交的 5160 篇论文(比 CVPR 2018 增加 56%),最终接收了 1294 篇,接收率约为 25%。CVPR 2019 共有 9227 人注册参会,突破历届记录。
CVPR 2019 程序主席、伊利诺伊大学香槟分校(UIUC)计算机科学副教授教授 Derek Hoiem 认为计算机视觉正处于黄金时代,但他也认为计算机视觉目前仍依靠记忆,大量方法不具备泛化性。
让我们看看他是怎么说的:
对于计算机视觉研究者而言,这是令人振奋但也压力倍增的时代。上周二,本人有幸在 CVPR 2019 大会上向 9,277 位参与者致开幕词。作为 CVPR 2019 四位程序委员会主席之一,本人主要负责管理论文评审流程(涉及 132 位领域主席、2887 位审稿人,以及提交 5160 份论文的 14104 名作者),并组织 1296 场 poster 论文的展示和 288 场演讲。这是历史上规模最大的计算机视觉会议,但四个月后会召开另一场盛会。
研究成果日新月异——谁又能跟上研究步伐呢?
CVPR 各年度论文提交数量(蓝色)和接收数量(绿色)。
计算机视觉不再只是一种学术追求。数十亿美元正投入到智能摄像机、自动驾驶等应用中。大多数教授至少花费一半的时间投身于工业,甚至刚毕业的博士生都可以拿到六位数的薪水。但这是泡沫吗?我们又如何区分适用于商业化的成熟突破和炒起来的概念验证呢?
首先,让我们简单回顾一下计算机视觉的发展历程:
那么,这就该提到计算机视觉领域的公开秘密了:计算机视觉只是记忆,而不是智能。
我们来看一个单视角深度预测的例子。2005 年,我提出了首个基于户外图像自动创建 3D 模型的方法。该方法的关键是通过标注像素、利用透视几何规则构建简单的场景几何模型,以学习「识别」图像的几何。该方法在 30% 的情况下是有效的。
单视角 3D 重建的一种早期方法:少量数据、手动制作的特征,以及一些数学知识。
单视角 3D 重建现在已经成为热门话题,仅 CVPR 2019 就收到了大约 35 篇相关论文。一些方法能够基于全景图像生成场景布局,基于图像生成目标网格,基于单视角生成深度图。
但是,就像我和 UCI 的研究者发表在 CVPR 2018 的论文《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》以及德国弗莱堡大学研究者发表在 CVPR 2019 的论文《What Do Single-view 3D Reconstruction Networks Learn?》所指出的那样,很多看似能解释图像几何的方法实际上只是在学习过程中记住了图像的几何信息,并通过检索与输入类似的样本来执行预测。预测得到的 3D 模型看似很好,但这些方法无法泛化到新的形状或场景。
那么,我们来考虑 3D 重建的两个重要问题:
总之,如果有人称其最新解决了一个关于识别或预测的难题,请先问自己一个问题:他们有足够的数据,支持其方法记住所有答案吗?
要做到这一点,他们需要 1)具备海量数据;2)在数据标注上花费大量金钱(数百万),或者拥有自动标注方法;3)预测问题足够简单,且你的领域足够有限可以被他们的数据和标签覆盖。
几十亿美元的图像标注行业的存在是有理由的,而且截至目前,数据没有替代品。