开源节流 2018-07-20
点击上方关注,All in AI中国
2018年全球计算机视觉和模式识别会议(CVPR)近日在美国盐湖城举行。这是计算机视觉领域中的世界顶级会议。今年,CVPR收到了3,300份主要的会议论文,其中有979份论文被接纳。超过6,500人参加了会议。
每年,CVPR都会吸引很多优秀的人才和他们的研究成果;总有一些新的东西值得去看和学习。同理,总有一些论文发表会有新的突破性成果,并为该领域带来新知识,给行业注入新鲜的血液。这些论文经常为计算机视觉的许多子领域塑造带来最新的技术。
随着计算机视觉领域的深度学习,我们发现了所有的可能性。许多论文都将展示深度网络在视觉中的全新应用。它们可能不是最根本的突破性作品,但它们很有趣,能为该领域提供创造性和启发性的视角,可以从它们呈现的新角度激发新的想法。总而言之,它们非常酷!
在这里,本文将向你展示作者认为是在2018年CVPR上的10篇最酷的论文。你将看到通过使用深度网络实现的最新应用,以及如何应用它们的最新方法。你可能会在此过程中有一些新的收获。让我们开始吧!
用合成数据训练深度网络:通过领域随机化缩小现实差距(https://arxiv.org/abs/1804.06516)
本文来自Nvidia,核心思想是充分利用合成数据来训练卷积神经网络(CNN)。他们为Unreal Engine 4创建了一个插件,它将会生成合成训练数据。其中的关键是他们将训练数据可能拥有的变量进行了随机化,包括:
研究人员展示了利用合成数据进行预训练后出色的效果和效率,结果达到了前所未有的水平。这也对你在没有重要数据来源时提供了一种思路,即生成并使用合成数据。
WESPE:用于数码相机的弱监督照片增强器(http://www.vision.ee.ethz.ch/~ihnatova/wespe.html)
这项研究通过训练生成对抗网络(GAN)来美化照片,也就是"修图"。很酷的部分是,它是受到弱监督的。你不需要有输入和输出的图像,想要训练网络,你所需要的只是一组"好看"的图像(用于输出基础事实)和一组想要增强的"不好看"的图像(用于输入图像)。然后,通过训练GAN以产生输入图像的美学增强版本,使其符合审美,它通常会改进图像的颜色和对比度。
这一款应用使用起来非常快捷方便,因为你不需要精确的图像对,最终会得到一个"通用"的图像增强器。作者还喜欢这篇论文的一点是它弱监督的方法,非监督的学习看起来似乎相当遥远,但对于计算机视觉中的许多子领域而言,弱监管似乎是一个充满希望且可靠的方向。
用Polygon-RNN ++对图像分割数据集进行高效地交互式标注(https://arxiv.org/abs/1803.09693)
深度网络之所以能有巨大帮助,正是得益于大型的经过标注的数据集。然而,对于许多计算机视觉任务而言,想获得这样的数据既费时又成本高昂。特别是分割的数据需要对图片中的每个像素进行分类标注。所以对大型数据集来说,标注是永远都标不完的。
而Polygon-RNN ++允许你在图像中的每个目标物体周围大致圈出多边形形状,然后网络将自动生成分割标注!论文中表明这种方法实际上很好推广,可以用来为分割任务创建快速简便的标注!
从时尚配图中创造自己的"衣柜"(https://arxiv.org/abs/1712.02662)
"嗯,我今天应该穿什么?"如果有人可以每天早上为你回答这个问题,那将再好不过了。
在这篇论文中,作者设计了一个模型,给出候选服装和配件的清单,模型能对各件单品进行组合,提供所有可能的混合搭配方案。事实上它是使用目标函数进行训练,这些目标函数只在捕捉视觉兼容性、多功能性和用户偏好等关键要素。有了它,你可以轻松搭配最适合你的最佳服装!
Super SloMo:用于视频插值的多个中间帧的高质量估计(https://arxiv.org/abs/1712.00080)
你曾经是否想以超级慢动作来拍摄超级炫酷的东西呢?那么Nvdia的Super SloMo就是你的最佳选择!用CNN估计视频中间帧,能够将标准的30fps视频转换为240fps的慢动作回放视频!该模型估计了帧与帧之间的光流,并将它插入视频帧中间,使慢动作视频看起来更加清晰流畅。
从视觉数据构建狗的行为模型(https://arxiv.org/abs/1803.10827)
这可能是有史以来最酷的研究论文!这项研究的想法是试图模拟狗的思想和行为。研究人员将许多传感器连接到狗的四肢以收集其运动的数据; 他们还在狗的头部安装了一个摄像头,从而获得"狗狗视角下的画面"。为了从视频帧中提取图片特征,研究人员用到了CNN特征提取器,之后和传感器数据一起被传输到LSTM中,预测狗的行为。这种非常新颖和具有创造性的应用程序,以及任务框架和执行的独特方式使这篇论文非常有可读性!希望这样的数据收集方法和深度学习技术的应用能激励未来的研究。
学会分割一切(https://arxiv.org/abs/1711.10370)
在过去的几年里,何凯明团队(以前在微软研究院,现在就职于Facebook AI Research)提出了许多重大的计算机视觉研究成果。他们的研究最棒之处在于将创造力和简单性相结合。ResNet和Mask R-CNN都算不上是最疯狂、最复杂的点子,虽然它们简洁易用,但在实际中非常高效。
Learning to Segment Every Thing是Mask R-CNN的扩展,它使网络能够分割在训练期间从未见过的目标物体!这对于快速获取数据集中的标签非常有帮助,同时成本也较低。事实上,它可以对从未见过的目标种类获取强大的基本分类,这对于实际应用这类分割网络是非常重要的,因为在这样的环境中可能有很多陌生种类。总的来说,这是大多数深度网络模型应该考虑的正确方向。
桌上足球(https://arxiv.org/abs/1806.00890)
本论文的研究是在FIFA世界杯开幕时正式发布的,理应获得最佳时机奖!它确实是使CVPR计算机视觉变的"更酷"应用之一。简而言之,作者训练了一个模型,在给定足球比赛视频的情况下,该模型可以输出该比赛的动态3D重建,也就是说你可以用AR技术随时随地查看比赛。
最巧妙的是,作者将不同种类的信息结合了起来。使用视频游戏数据训练网络,数据可以用3D网格轻松提取。在测试时,运动员的边界框、姿势和轨迹都被提取出来,以进行分割。这些3D分割可以轻松投射到任意平面上。这也是用合成数据进行训练的好方法。
LayoutNet:从单个RGB图像重建3D房间布局(https://arxiv.org/abs/1803.08999)
这是一个计算机视觉应用程序,我们很多人可能曾经想过:使用相机拍摄某些东西,然后用数字3D技术重建它。这正是本文的目的,特别是重建3D房间布局。研究人员使用全景图像作为输入,以获得房间的完整视图。输出是3D重建后的房间布局,具有相当高的准确性!该模型足够强大,可以推广到不同形状、并包含许多不同的家具的房间。这是一个有趣而好玩、又不需要投入太多研究人员就能够实现的应用程序。
学习可迁移的架构以实现可扩展图像识别任务(https://arxiv.org/abs/1707.07012)
最后要介绍的是一项许多人都认为是深度学习未来的研究:神经架构搜索(NAS)。NAS背后的基本思想是,我们可以使用另一个网络"搜索"最佳模型架构,而不是手动设计网络架构。搜索会基于一个奖励函数,在验证集上函数会根据模型表现进行奖励。作者表示这种架构比手动设计的精确度更高,并且灵活性更好。 此外,作者在论文中表明,这种模型结构比起手动设计的模型能够获得更高的精度。这将是未来巨大的研究方向,特别是对于设计特定的应用程序而言。因为我们真正关注的是设计好的NAS算法,而不是为我们特定的应用设计特定的网络。精心设计的NAS算法将足够灵活,并能够为任何任务找到良好的网络结构。
结束语
希望你能从中学到一些新的有用的东西,甚至可能为你自己的研究找到一些新的想法!