Semantic Segmentation---Understand Convolution for Semantic Segmentation(论文解读十五）

本文指出空洞卷积存在"girdding"问题，即空洞卷积在卷积核两个采样像素之间插入0值，如果扩张率过大，卷积会过于稀疏，捕获信息能力差。本文提出了混合扩展卷积架构(hybrid dilation convolution,HDC): 使用一组扩展率卷积串接一下构成block，可扩大感受野的同时减轻"gridding"弊端。

3 Related Work

论文从以下两个方面介绍了相关工作：

特征表示解码（Decoding of Feature Representation）：因为池化操作中的下采样和stride Convolution导致了feature map分辨率的降低，从而损失语义信息。现在多种方案针对低分辨率特征图解码出准确信息，常常采用双线性上采样方式，与此同时，解卷积使用池化位置信息帮助解码（SegNet），也有使用堆叠的解卷积层恢复信息等；
扩张卷积（dilated Convolution）：在卷积采样中插入0，用以扩张采样分辨率。Deeplab系列中费用ASPP聚合多尺度信息等。

4 Method

4.1 密集上采样卷积（DUC）

考虑到模型输入图片大小(H,W,C),整个模型在预测前的输出feature map大小为Fout=(h,w,c) ，其中 H/d=h,W/d=w，d称为下采样因子(downsampling factor)。

双线性插值存在的问题：如果模型的d=16，即输入到输出下采样了16倍。如果一个目标物的长或宽长度小于16个pixel，训练label map需要下采样到与模型输出维度相同，即下采样16倍时已经丢失了许多细节, 对应的模型预测结果双线性插值上采样是无法恢复这个信息。

针对以上这个问题，论文提出了DUC的解决方法！将DUC将Fout的尺寸(h,w,c) 通道转为到(h,w,d2×L), L是分割类别数目。再reshape到label map大小(H,W,L) 。reshape操作代替了解卷积上采样，可直接对接label map。

从另一个角度想：DUC将整个label map(H,W,L) 分为d2个等大小的子图(subparts)，每个子图和大小和Fout 输出的feature map大小相同。也就是说将label map切分为(h,w,d2×L) 。
DUC以原始分辨率像素级解码，并且能够自然的集成到FCN框架中，使得整个编码和解码能以end2end方式训练。

4.2 混合扩展卷积

对于左边：r=2,k=3 .k_d=3+(3-1)(2-1)=5，接收野为5×5
对于右边：r=3,k=3 k_d=3+(3-1)(3-1)=7，接收野为7×7

扩张卷积可增加features map的分辨率，故可替换FCN架构中的池化层。但是，扩张卷积存在一个理论上的问题，称之为"gridding"：对于扩张卷积的一个像素点p，对其有贡献的是上一层以p为中心的 k_d×k_d的邻近区域，因为扩张卷积引入0值，在k_d×k_d的区域只计算k×k 个像素点，非0像素点之间间隔为r−1

1. 当high layer中r 变的越来越大，这会使得从输入中采样的数据越来越稀疏，不利于卷积学习，因为

局部的信息完全丢失
信息之间太远不相关

2.r×r 的区域从完全不同的“网格”集合内接收信息，这会损害本地信息的一致性。

论文提出HDC用于缓解gridding问题，考虑到一个N个size为K*K的扩张卷积，对应扩张率不同，HDC的目标就是让最后的接受野全覆盖整个区域。

论文给出使用不同扩张率的扩张卷积策略是锯齿波(sawtooth wave-like)变化形式:即取几层为一组，每个组的扩张率从低向高增加，每个组类似，即扩张率变换类似锯齿波。锯齿波能同时满足小物体大物体的分割要求(小rate提取本地信息，大rate提取长距离信息)。

例如：对于r=2的层，将3个层组成一组，对应的扩张率分别为1,2,3。这样顶层可以获取更宽阔的区域信息，这能在保持接收野大小不变的情况下提高信息利用率。

需要注意的是，一个组内的卷积不应该有一个固定的变换因子，即不要用大于1的公约数(例如2,4,8的公约数为2>1)，否则依旧无法减小"girdding"效应。

HDC的另一个好处是可以使用任意的扩张率，很自然的扩大了接收野且不需要添加额外的模块，这对识别大型相关目标很关键。

5 Experiment

实验细节：

项目	属性
数据集	Cityscapes，KITTI， PASCAL VOC2012
预训练	ResNet-101 ， ResNet-152
损失函数	cross-entropy
优化器	SGD
框架	MXNet
实现工具	TITAN X

实验结果如下：

Abation Studies：主要做以下方面的实验.

网络的下采样扩张率，用于控制内部的feature map的分辨率
是否使用ASPP模块，以及使用并行路径的数量
是否做数据增强，即将数据切分为12个子patches
一个预测像素投影的邻近区域大小(cell,cell) (cell,cell)(cell,cell).像素级的DUC应该使用cell=1 cell=1cell=1，但因为Gound Truth无法达到像素级，在实验中尝试cell=2 cell=2cell=2

降低下采样率会降低准确率。ASPP模块通常有助于改善性能。数据增强有助于提高准确率，使用cell=2有轻微的提升，同时有助于降低计算消耗。

Bigger Patch Size： 因为cell=2 会大幅度减少计算量消耗，故讨论patch size对性能的影响。将patch size提高到880×880 ，将原本的12倍cropping换成7倍的cropping，性能提升了1%；

Compared with Deconvolution： 使用上采样效率略低于DUC model；
Conditional Random Fields(CRF)： 使用CRF提高了1%的性能。

HDC

以最佳的101 layer的ResNet-DUC为基础，添加HDC，实验探究了几种变体：

无扩张卷积(no dilation)：对于所有包含扩张卷积，设置r=1
扩张卷积(dilation Conv )：对于所有包含扩张卷积，将2个block和为一组，设置第一个block的r=2，第二个block的r=1
Dilation-RF：对于res4b包含了23个blocks，使用的r=2，设置3个block一组，r=1,2,3 .对于最后两个block，设置r=2 ；对于res5b ，包含3个block,使用r=4 ，设置为r=3,4,5
Dilation-Bigger：对于res4b res4bres4b模块，设置4个block为一组，设置r=1,2,5,9.最后3个block设置为1,2,5 ；对于res5b模块，设置r=5,9,17