Dual Super-Resolution Learning for Semantic Segmentatio || CVPR2020

Dual Super-Resolution Learning for Semantic Segmentatio 用于语义分割的双超分辨率学习

Abstract：
当前的语义分割通常使用高分辨率输入来获得好的效果，但需要巨大的计算资源受设备的限制。**本文我们提出了一个简单灵活的 two-stream framework 方法，叫做 Dual Super-Resolution Learning （DSRL），在不引入额外算力消耗的情况下提升分割的准确性。方法由 3 部分组成：Semantic Segmentation Super-Resolution (SSSR), Single Image Super-Resolution (SISR) and Feature Affinity (FA) module,能够在低分辨率输入的情况下，保持高分辨率表示，同时降低了计算复杂度。**也可以应用到人体解析等其他任务，在 CityScapes 数据集miou提升2%，以较小的 FLOPs ，保持在 70% 的FLOPs。原论文作者代码：Code and models are available at https://github.com/wanglixilinx/DSRL.

Introduction：
语义分割中high-resolution representation十分重要。当前由两种主要的方法保持 high-resolution representation ：一种是空洞卷积代替 stride conv ，例如 Deeplabs；另一种是结合自上而下的路径和横向连接产生 high-resolution representation ，例如Unet，但这都会损耗巨大的算力资源。此外，还是用高分辨率图像作为输入，进一步增加算力损耗。
在这里插入图片描述
本文我们提出 Dual Super-Resolution Learning （DSRL）包括：Semantic Segmentation Super-Resolution (SSSR), Single Image Super-Resolution (SISR) and Feature Affinity (FA) module。我们将超分辨率思想放入语义分割构建出 SSSR 分支，然后 SSSR 分支的高分辨率特征进一步被增强通过带有FA的SISR分支产生的细粒度结构表示。两分支共享同一个特征提取器，训练过程中重建监督对SISR分支进行了优化，在推理阶段可以将其从网络中自由删除，从而节省了开销。

模型结构；
在这里插入图片描述
SSSR：在原有语义分割的基础上，再加一个额外的上采样 module 生成最终预测，这个过程叫超分辨率语义分割 SSSR。例如输入是 512x1024，将输出为 1024x2048 ，是原来的 2 倍。与目前大多数预测512×1024的掩模进行训练和测试(后处理阶段再缩放到1024×2048)的系统相比，我们的方法可以充分利用ground truth，避免预处理造成有效的标签信息损失。额外的上采样层一般是反卷积组成，然后是bn，relu。
在这里插入图片描述
SISR：
由于只依靠解码器不足以恢复高分辨率的语义特征。SISR的目的是通过低分辨率的输入构建高分辨率的图像。这意味着 SISR 能在低分辨率的输入上重构图像的细粒度结构特征，这对语义分割是有帮助的。
为了更好地理解，我们可视化了SSSR和SISR的特征：我们可以很容易地发现SISR包含了更完整的物体结构。虽然这些结构不明确地表示类别，但可以根据像素与像素或区域与区域的关系有效地进行分组。这些关系可以隐含地传递语义信息，从而有利于语义分割任务的完成。因此，我们使用SISR重新覆盖的高分辨率特征来指导SSSR的高分辨率表示的学习，这些细节可以通过内部像素之间的相关性或关系来建模。可以弥补译码器设计简单的不足。整个分支在原始图像的监督下进行训练，在推理阶段自由去除
在这里插入图片描述
FA：
由于SISR比SSSR包含更完整的结构信息，我们引入特征关联学习来指导SSSR学习高分辨率表示。由于存储开销大，我们在实际中将像素对的子样本设为1/8。此外,为了减少训练之间的差异所造成的不稳定特性分布SISR SSSR分支,我们添加一个特性反式模块的功能映射SSSR分行申请前足总损失,由一层1×1卷积BatchNorm和ReLU层紧随其后。
如式1所示，FA 学习SISR和SSSR分支之间的相似矩阵距离，其中相似矩阵如式2所示，主要描述像素之间的关系。p = 2 and q = 1代表L2，L1正则化.
在这里插入图片描述

LOss： w 1and w 2are set as 0.1 and 1.0,
在这里插入图片描述

理解：通过输入的低分辨率图像，来生成高分辨率用于指导语义分割增加准确率，并且推理时去除，从而几乎不会增加计算量。

Dual Super-Resolution Learning for Semantic Segmentatio || CVPR2020

Dual Super-Resolution Learning for Semantic Segmentatio 用于语义分割的双超分辨率学习

猜你喜欢