人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑

YUAN 2018-07-24

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑摘要: 单图像超分辨率(SISR)的主要挑战是恢复高频细节,如微小纹理。然而,大多数最先进的方法缺乏识别高频区域的特定模块,导致输出图像模糊。我们提出了一种基于注意力的方法来区分纹理区域和平滑区域。在定位高频细节的位置之后,执行高频补偿。该方法可以与先前提出的SISR网络合并。通过提供高频增强,实现了更好的性能和视觉效果。我们还提出了由DenseRes块组成的自己的SISR网络。该块提供了组合低级功能和高级功能的有效方法。广泛的基准评估表明,我们提出的方法比SISR中最先进的工作有了显着的改进。

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑介绍:单图像超分辨率(SISR)的任务是从单个低分辨率(LR)输入图像推断出高分辨率(HR)图像。这是一个非常不适合的问题,因为在低通滤波和下采样期间,诸如微小纹理的高频信息会丢失。因此,SISR是一对多映射。我们的任务是找到最合理的HR图像,尽可能地恢复微小的纹理。

为了从LR图像中恢复HR图像,需要大的接收场来从LR图像中获取更多的上下文信息。使用更深的网络是增加感受野的更好方法。深度网络的一个缺点是消失梯度问题,这使得网络难以训练。他等人。 [1]使用剩余学习框架来简化网络培训。跳过连接是另一种通过网络增强梯度和信息流的解决方案。低级特征包含有效信息,可用于重建HR图像。 SISR将受益于不同层面的集体信息。

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑

SISR的难点在于恢复高频细节,例如微小的纹理。输出图像和原始图像之间的均方误差(MSE)通常用作训练卷积神经网络的损失函数。然而,在追求高峰值信噪比(PSNR)的过程中,MSE将返回许多可能解决方案的平均值,因此输出图像看起来模糊且难以置信。为了恢复高频细节,已经提出了鼓励的感知损失[2]网络产生其特征表示相似的图像,从而产生更清晰的图像。 Ledig在al。 [3],[4]结合了对抗性网络,感知损失和纹理损失,以鼓励输出图像恢复高频细节,如微小纹理。但是所有这些网络并没有明确地知道高频细节的位置,他们只是试图盲目地恢复纹理。因此,这些网络的性能并不令人满意。

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑贡献:为了解决这些问题,首先,基于将每个层连接到每个后续层的denseNet [5],我们提出了一个新的块,称为DenseRes块,由残余构建块(Resblock)[1]组成。每个Resblock的输出都连接到每个其他Resblock,从而增强了信息流并避免了重新学习冗余功能。使用DenseRes块,可以缓解梯度消失问题,并且网络易于训练。其次,我们提供了一种应对高频细节恢复的注意机制。受U-net [6]的启发,用于语义像素分割,我们提出了一种新颖的混合密集连接U-net,以帮助网络区分区域是否充满需要修复的微小纹理或类似于插值图像。它作为一个特征选择器,有选择地增强高频功能。因此,纹理可以尽可能地恢复。

这是第一次将注意机制引入SISR。该方法简单有效。通过选择性地提供高频增强,它减轻了输出图像趋于模糊的问题。注意机制可以与先前提出的SISR网络结合。实现了更高的PSNR和SSIM。另一个贡献是我们提出了DenseRes块,它提供了一种组合低级功能和高级功能的有效方法。它有利于恢复高频细节。

我们在四个公开可用的基准数据集上评估我们的模型。它在PSNR和结构相似性(SSIM)指数方面优于当前最先进的方法。至于PSNR,我们分别比VDSR [7]和DRCN [8]提高了0.54 dB和0.52dB。本文的其余部分安排如下:第二部分介绍了包括超分辨率(SR)算法和注意机制的相关工作,第三部分提出了网络结构。第IV部分提供了实验结果和与最新结果的视觉比较。我们在第五节做出结论。

人工智能算法基于注意力机制的单图像超分辨率方法区分纹理和平滑

相关工作:SISR,诸如bicubic和Lanczos [9]等早期方法易于实现且速度很快。但是这些方法通常会产生模糊的结果,缺乏高频细节。提出了许多强大的方法,如稀疏编码[10],以建立低分辨率和高分辨率图像之间的复杂映射。稀疏编码[11],[12]基于以下假设:LR字典上的LR图像的稀疏表示与HR字典上的相应高分辨率图像的稀疏表示相同。

最近,基于卷积神经网络(CNN)的算法取得了很好的效果,并且优于其他算法。董等人。 [13]用双三次插值对输入图像进行了放大,然后端到端地训练了一个浅卷积网络,以学习从LR输入到超分辨率输出的非线性映射。随后,各种工作[3],[7],[8]成功地在SISR中使用了深度网络,并且与浅卷积体系结构相比,获得了更高的PSNR值。最近,Lim等人。 [14]在NTIRE2017超分辨率挑战中获得最佳成绩[15]。他们的网络深度高达32。

在许多用于SISR的深度学习算法中,LR图像通过双三次插值作为网络的输入进行上采样[7],[8]。这意味着SISR操作在高分辨率空间中执行,这是次优的并且增加了计算复杂性。代替内插图像,应用子像素卷积层[16]以将特征图上采样到网络的后续层中的地面实况的大小。这可以在保留模型容量的同时减少计算。

注意机制:基于注意机制的方法在一系列任务中表现出良好的性能。在语音识别领域,基于注意力的循环网络解码器用于将语音话语转录为字符[17]。 Chorowski等。 [18]用注意机制提高对长输入语音的鲁棒性。侯等人。 [19]提出了一种简单但有效的注意机制来实现在线语音识别。在机器翻译领域,Ashish等人。 [20]提出了一个新的简单网络,完全基于注意力机制,完全免除了复发和控制,在机器翻译任务中表现出卓越的品质。其他作品[21],[22]也在关注的帮助下取得了不错的成绩。在...方面Zhang等人的目的是识别和定位吸引人类注意力的特殊区域。 [27]设计一个对称的完全卷积网络来提取显着性特征。李等人。 [28]使用弱监督方法,并使用强监督方法获得可比较的结果。

相关推荐