图像语义分割(6)-RefineNet:用于高分辨率图像语义分割的带有恒等映射的多路精细网络

1. 问题提出

使用深度卷积神经网络进行图像语义分割都会遇到这样的问题：pooling和卷积步长导致feature map尺寸降低，损失了精细特征，针对这个问题很多论文提出了解决方案：

pooling下采样导致分辨率的损失，采用DeConv反卷积方式很难恢复位置信息；
使用空洞卷积增大感受野，，但是这样有两个缺点：(1)增加了计算代价；(2)空洞卷积本质是一个粗糙的Sub-Sampling，损失了重要的信息[是不是一个改进的点，还是已经得到了改进？]；
skip-connections产生高分辨率的预测，这也是本文作者借鉴的点；

RefineNet架构灵活，和FCN一样可以有多种变形：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

从上一节可以看到，模型的基本结构是RefineNet Block，详细结构如下：
在这里插入图片描述

这一部分主要用于微调预训练好的ResNet来适应我们自己的任务，是原始ResNet的一个卷积单元的卷积版本，如3.3中的图片，RefineNet-4的filters数量是512，其余三个都是256。

这一部分中，实现对输入进行卷积以产生相同维度的特征图，然后把所有特征图上采样至最大的输入的尺寸，最后将所有特征图fused by summation。如果只有一个输入路径(3.3中的RefineNet-4),那么这个输入可以跳过这个模块，也就是go through without changes。

这个模块主要用于较大图像区域中捕获背景的上下文信息。

这个部分由三个RCU串联而成，主要将非线性操作应用到多路融合的特征图从而产生用于分类的特征图，通过这个部分特征图维度不变。

在这里插入图片描述