视频光流估计

1.摘要

近年来，深度学习技术，作为一把利剑，广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”，从技术角度看，是“深度学习时代”。光流估计是计算机视觉研究中的一个重要方向，然而，因为其不容易在应用中“显式”地呈现，而未被大众熟知。随着计算机视觉学界从图像理解转向视频理解，互联网用户从发布图片朋友圈转向发布短视频，人们对视频的研究和应用的关注不断增强。光流估计作为视频理解的隐形战士，等着本文去寻找其踪迹。本文介绍了什么是视频光流估计和算法原理。

2.介绍

光流，顾名思义，光的流动。比如人眼感受到的夜空中划过的流星。在计算机视觉中，定义图像中对象的移动，这个移动可以是相机移动或者物体移动引起的。具体是指，视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量，使用二维向量表示。如图1。

视频光流估计

图1. 光流示意图

根据是否选取图像稀疏点进行光流估计，可以将光流估计分为稀疏光流和稠密光流，如图2，左图选取了一些特征明显（梯度较大）的点进行光流估计和跟踪，右图为连续帧稠密光流示意图。

视频光流估计

图2. 左图稀疏点光流，右图稠密光流

稠密光流描述图像每个像素向下一帧运动的光流，为了方便表示，使用不同的颜色和亮度表示光流的大小和方向，如图2右图的不同颜色。

3.算法

最为常用的视觉算法库OpenCV中，提供光流估计算法接口，包括稀疏光流估计算法

cv2.calcOpticalFlowPyrLK()，和稠密光流估计cv2.calcOpticalFlowFarneback()。其中稀疏光流估计算法为Lucas-Kanade算法，该算法为1981年由Lucas和Kanade两位科学家提出的，最为经典也较容易理解的算法，下面将以此为例介绍传统光流算法。对于最新的深度学习光流估计算法，FlowNet的作者于2015年首先使用CNN解决光流估计问题，取得了较好的结果，并且在CVPR2017上发表改进版本FlowNet2.0,成为当时State-of-the-art的方法。截止到现在，FlowNet和FlowNet2.0依然和深度学习光流估计算法中引用率最高的论文，分别引用790次和552次。因此，深度学习光流估计算法将以FlowNet/FlowNet2.0为例介绍。

3.1 传统算法 Lucas-Kanade：邻域光流相似假设

孔径问题（Aperture Problem），如图3，从圆孔中观察三种移动的条纹的变化，是一致的，从而无法通过圆孔得到条纹的真实移动方向（光流方向）。因此，Lucas-Kanade方法将选取一些可逆的像素点估计光流，这些点是一些亮度变化明显的角点，知名的角点检测算法Harris角点检测算法正是借助了可逆的相关性质。

视频光流估计

图3. 光流求解的孔径问题

除了基于亮度不变假设和邻域光流相似假设，为了解决图像偏移较大的情况，Lucas-Kanade算法还借助了图像金字塔（Pyramid）的方式，在高层低分辨率图像上，大的偏移将变为小的偏移。最终，Lucas-Kanade方法给出了一种求解稀疏（明显特征的角点）光流的方法。

3.2 深度学习算法 FlowNet/FlowNet2.0

ICCV2015提出的FlowNet是最早使用深度学习CNN解决光流估计问题的方法，并且在CVPR2017，同一团队提出了改进版本FlowNet2.0。FlowNet2.0 是2015年以来光流估计邻域引用最高的论文。

作者尝试使用深度学习End-to-End的网络模型解决光流估计问题，如图4，该模型的输入为待估计光流的两张图像，输出即为图像每个像素点的光流。本文从Loss的设计，训练数据集和网络设计来分析FlowNet。

视频光流估计

图4. 深度学习End-to-End 光流估计模型

对于Loss的设计，如果给定每个像素groundtruth的光流，那么对于每个像素，loss可以定义为预测的光流（2维向量）和groundtruth之间的欧式距离，称这种误差为EPE(End-Point-Error)，如图

视频光流估计

图5. End Point Error

对于训练数据集，由于稠密光流的groundtruth为图像每个像素的光流值，人工标注光流值几乎不可能。因此，作者设计了一种生成的方式，得到包括大量样本的训练数据集FlyingChairs。其生成方式为对图像做仿射变换生成对应的图像。为了模拟图像中存在多种运动，比如相机在移动，同时图像中的人或物体也在移动。作者将虚拟的椅子叠加到背景图像中，并且背景图和椅子使用不同的仿射变换得到对应的另一张图，如图6。

视频光流估计

图6. FlyingChairs数据集生成

对于深度网络结构，该类网络通常包括降维的encoder模块和升维的decoder模块。作者设计了两种网络,FlowNetSimple和FlowNetCorr(Correlation)。这两种网络的Encoder模块不同，Decoder模块相同。

视频光流估计

图7. FlowNetSimple

视频光流估计

图8. FlowNetCoor

FlowNetSimple简单地将两张图排列到一起，即将两张图，合并成的Tensor，作为CNN encoder的输入（如图7），这是最为简单的将两张图的信息整合到一起的方式，也因此命名为FlowNetSimple。FlowNetCoor则先对两张图像分别进行卷积，获得较为高层的feature后，再进行相关运算（引入人为定义的规则），将信息合并，如图8。其中，相关运算借鉴了传统视觉算法中，找图像匹配的思想。

两种网络的Decoder是一致的(见图9)，其通过反卷积进行升维，各层反卷积运算的输入包括三个部分，第一部分是上一层的反卷积输出deconv*(高层语义信息)，第二部分来之Encoder相关层的FeatureMap conv*_1(低层局部信息),第三部分由前一层卷积的输出coarse的光流flow*上采样得到。从而融合了高层和低层的信息，也引入了coarse-to-fine(由粗到细)的机制。

视频光流估计

图9. Decoder网络结构

基于上述网络和训练集，作者基于深度学习设计的FlowNet在实时估计光流算法中取得了state-of-the-art的结果，但是依然比非实时的传统方法效果要差。同时，作者对比了FlowNetS和FlowNetCoor，FlowNetCoor的效果更好，证实了人工加入的相关运算是有效的，也符合预期。

4. 应用

光流，从物理意义的角度看，描述了视频中物体、对象在时间维度上的关联性，从而建立了视频中连续图像之间的关联关系。因此，最为直接而自然的应用就是视频中物体的跟踪，在物体跟踪领域知名的TLD算法便借助了光流估计，图2中展示了在车辆上的特征点光流跟踪的效果。在视觉里程计和SLAM同步定位与建图领域，光流可以作为图像特征点匹配的一种方式，比如知名的视觉惯性里程计开源算法VINS-Mono。英伟达也提供了基于其GPU的光流SDK,其中展示了利用光流进行视频动作识别(video action recognition)和视频插帧的应用，如图10，11。

视频光流估计

图10. 光流应用于动作识别

视频光流估计

图11. 光流应用于视频插帧

5. 总结

对于稀疏光流，本文提到的Lucas-Kanade是一种经典且有效的算法，对于稠密光流估计，传统方法需要在精度和速度上做出取舍，而最新基于深度学习的FlowNet2算法可以实时取得state-of-the-art的精度。

参考文献

[1] Ilg, Eddy, et al. "Flownet 2.0: Evolution of optical flow estimation with deep networks."Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[2] Dosovitskiy, Alexey, et al. "Flownet: Learning optical flow with convolutional networks."Proceedings of the IEEE international conference on computer vision. 2015.

[3] NVIDIA Optical Flow SDK https://developer.nvidia.com/opticalflow-sdk , Accessed at 2019/7/20

视频光流估计

3.1 传统算法 Lucas-Kanade：邻域光流相似假设

3.2 深度学习算法 FlowNet/FlowNet2.0

5. 总结

Codeeror

相关推荐

使用OpenCV进行图像全景拼接

opencv python 角点检测/FAST算法

opencv python SIFT（尺度不变特征变换）

opencv python Shi-Tomasi角点检测

Python使用OpenCV进行标定

OpenCV目标跟踪_cvGoodFeaturesToTrack()寻找角点

OpenCV_cvFindCornerSubPix()查找亚像素级角点

harris角点检测

论文：ORB-SLAM2原理详解

CAD教学: 快捷键及操作用法!