CVPR2020-图像超分辨率与语义分割结合，提升2-3个点 | Dual Super-Resolution Learning for Semantic Segmentation

图像超分辨其实可以帮助小目标检测与语义分割这些任务，本文提出的框架简单有效
Github地址：https://github.com/wanglixilinx/DSRL.

在这里插入图片描述

Abstract：

当前最先进的语义分割方法通常使用高分辨率输入来获得高性能，这带来了巨大的计算代价，并限制了它们在资源受限的设备上的应用。在本文中，我们提出了一个简单而灵活的双分支框架，称为双重超分辨率学习（DSRL），以有效提高分割精度，而不会引起额外的计算成本。具体来说，该方法包括三部分：语义分割超分辨率（SSSR），单图像超分辨率（SISR）和特征相似性（FA）模块，该模块可以保持低分辨率输入的高分辨率表示，同时减少模型的计算复杂度。而且，它可以容易地推广到其他任务，例如人体姿势估计。这种简单而有效的方法具有很强的代表性，并在语义分割和人体姿态估计方面都表现出了良好的前景。具体来说，对于CityScapes上的语义分割，我们可以在具有相似FLOPs的情况下将mIoU提高> = 2％，并在保持70％FLOPs的情况下保持性能。对于人体姿势估计，我们可以在相同的FLOPs情况下获得>=2％的mAP，并在FLOPs减少30％的情况下保持mAP。

Introduction：

在这里插入图片描述
现有语义分割算法主要采用两种方式来保持高分辨率表示。：
1）一通过使用空洞卷积来替换跨步卷积来保持高分辨率表示，例如DeepLabs 。
2）另一种是通过结合自上而下的路径和横向连接（如UNet等编码器-解码器框架）。

但是，这些方法通常涉及昂贵的计算成本。此外，他们通常以原始的高分辨率图像作为输入，这进一步增加了计算量。这些方法经常与高分辨率输入（例如1024×2048或512×1024）组合，这也带来了显著的计算成本。一旦限制了输入大小，无论大型网络还是小型网络，它们的性能都会大大降低。图1显示了具有各种输入分辨率的两个代表性分割网络的性能：ESPNetv2 和DeepLabv3 +。可以观察到，当输入分辨率从512×1024降低到256×512时，两个网络的精度都会降低10％以上。

因此，本文设计了一个简易的双分支框架，受旨在以低分辨率输入重建高分辨率图像的图像超分辨率算法为动力，提出了一种新颖的双重超分辨率学习（DSRL）范例来保持高分辨率表示。其中包含了语义分割超分辨率（SSSR），单图像超分辨率（SISR）和特征相似性（FA）模块。具体地，SSSR负责直接预测高分辨率的语义像素，SISR使用超分辨率算法重建高分辨率特征，FA模块则利用SISR超分辨率重建的细粒度特征去增强SSSR分支高分辨率特征表示。

本文的主要贡献包括：
1）提出了一个双分支超分辨率学习DSRL框架来保持高分辨率表示，它可以在保持推理速度的同时提高性能；

2）验证了DSRL框架的一般性，可以将其轻松扩展到其他需要高分辨率表示的任务，例如人体姿态估计任务；

（3）证明了该方法在语义分割和人体姿态估计上的有效性。使用相似的计算量，我可以提高> = 2％的精度，同时以可比的性能减少FLOPs。

Approach：

大多数现有语义分割方法只能将特征图上采样到与输入图像相同的尺寸以进行预测，该尺寸可能小于原始图像，例如，将原始图像1024×2048采样为512×1024。 CityScapes中的网络输入，因此需要对gt进行下采样以进行监督学习。 一方面，这可能导致有效标签信息的丢失。另一方面，仅依靠解码器很难恢复原始细节，这限制了性能的提高。
在这里插入图片描述
为了缓解上述难题，本文提出的双分支超分辨率学习（DSRL）结构如上图所示。可以看出，两个分支网络分别为SSSR与SISR，这俩共享Encoder结构。然后使用各自的Decoder分别输出语义分割的预测结果和图像超分辨率结果。FA主要用于增强两个分支特征的一致性。接下来将具体介绍体系结构的三个部分：
（a）语义分割超分辨率（SSSR）；
（b）单图像超分辨率（SISR）；
（c）特征相似度（FA）模块。

A.Semantic Segmentation Super-Resolution（SSSR）
在这里插入图片描述
相较于传统的语义分割结构，只需附加一个额外的上采样模块以生成最终的预测mask，整个过程称为语义分割超分辨率（SSSR）。具体结构如上图（a）所示，输入为512× 1024，将生成1024×2048的输出，比输入图像大2倍。这种方法可以充分利用gt并避免使用有效标签预处理造成的信息丢失。其中额外的语义分割上采样模块由一堆反卷积层组成，并且只需要较少的参数。

B.Single Image Super-Resolution（SISR）

动机：由于解码器是双线性上采样层或简单的子网，由于输入的分辨率较低（例如512×1024），因此不会带来任何其他信息。意思是指单纯的SSSR分支，无法获得可靠的高分辨率语义特征。本文因此利用SISR生成的高分辨率特征，帮助SSSR在低分辨率输入下有效地重建图像的细粒度结构信息。
在这里插入图片描述
效果可视化：具体可见上图中的SSSR和SISR的特征可视化。通过比较图3中的（b）和（c），可以发现SISR包含目标的更完整结构。尽管这些结构没有明确暗示类别，但是可以通过像素与像素或区域与区域之间的关系有效地对它们进行分组。众所周知，这些关系可以隐式传递语义信息，从而有利于语义分割的任务。因此，本文应用从SISR中恢复的高分辨率特征来指导SSSR高分辨率表示的学习，并且这些细节可以通过内部像素之间的相关性或关系来建模。关系学习可以弥补解码器的简单设计。

SISR网络：具体可见A中图（b）所示，其中Encoder部分与SSSR共享。采用ESPCN网络。整个分支都在原始图像的监督下进行了训练，并将在推理阶段删除。

C.Feature Affinity Learning（FA）
由于SISR比SSSR包含更完整的结构信息，因此我们引入特征相似性学习来指导SSSR学习高分辨率表示。如公式1所示，FA旨在学习SISR和SSSR分支之间的相似度矩阵的距离。
在这里插入图片描述
其中，如公式2所示，相似度矩阵主要描述像素之间的成对关系。Sij表示特征图F上第i个像素和第j个像素之间的关系，相当于是代表了特征图像素之间的关系，即结构信息。

实施细节：由于高内存开销，损失在原图输入的1/8特征图上计算FA距离。此外，为了减少由SISR和SSSR分支之间的特征分布差异引起的训练不稳定性，在应用FA损失之前在SSSR分支的特征图上附加了一个特征变换模块，该模型由1×1卷积组成层，然后是BatchNorm和ReLU层。

D.Loss Function
在这里插入图片描述
总损失由SSSR语义分割预测的交叉熵损失CE，SISR图像重建误差MSE和特征相似性FA距离组成。其中，CE与MSE公式如下：

Experiments：

1.Ablation Study（components and resolution）：
在这里插入图片描述

2.CityScapes（提升2-3个点）：

3.Human Pose Estimation：