近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.
其中,文中提出:CNN RNN GAN 三者是并列的。
ISSbRC 方法取得了一定的分割效果,但也存在图像分割精度不高和分割速度不够快等问题,因此,一些研究者提出直接在像素级别上进行图像语义分割,产生了基于像素分类的图像语义分割方法。从时间上来看bPC比bRC要晚。
ISSbPC 方法利用DNN 从带有大量标注的图像数据中提取出图像特征和语义信息,再根据这些信息来学习、推理原始图像中像
素的类别,通过端到端训练的方式对每个像素进行分类,以像素分类的方式达到语义分割的目标.这是下一步研究方向。
ENet 在执行分割任务时采用分解滤波器策略,使用低阶近似(low-rank approximation)将卷积操作分解为更简单的操作,在保证分割精度的同时,显著降低了计算量,是一种可完成像素标注、场景解析等任务的实时分割网络.ENet 中编码部分的网络比解码部分复杂很多,是一种不对称的编码器-解码器结构。这个重点关注。
关注以下两个数据集:
Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)
.KITTI 是目前国际上用于自动驾驶场景检测的最大评测数据集,主要用于评测车载环境下路面分割、目标检测、目标跟踪等技术.KITTI 数据集包含市区、乡村和高速公路等真实场景图像,每张图像中含有不同程度的遮挡现象.
Cityscapes Dataset(简称 Cityscapes)Cityscapes 主要提供无人驾驶环境下的图像分割数据,用于评估算法在城区场景语义理解方面的性能.Cityscapes 包含 50 个城市不同环境、不同背景、不同季节的街道场景,提供 5 000 张精细标注的图片、20 000 张粗略标注的图片和 30 种标注物体.
小结:由天空分割项目驱动,开始enet系列的研究。
附件列表