DenseASPP

DenseASPP for Semantic Segmentation in Street Scenes

原文地址：DenseASPP

收录：CVPR2018(IEEE Conference on Computer Vision and Pattern Recognition)

代码:

PyTorch

简介：

将DeepLab系列中的ASPP和DenseNet中的密集连接相结合，构成了DenseASPP。新的模块具有更大的接收野和更密集的采样点。在CityScapes上获得了state-of-the-art的标签。

关于扩张卷积和DenseNet的相关文章解读：

Abstract

使用扩张卷积(Atrous Convolution)能够在不牺牲特征空间分辨率的同时扩大特征接收野，DeepLab系列工作结合多尺度信息和扩张卷积的特点提出了ASPP模块，将不同扩张率的扩张卷积特征结合到一起。但论文认为ASPP模块在尺度轴上特征分辨率还不够密集，获取的接收野还不够大，为此提出了DenseASPP(Densely connected ASPP)，以更密集的方式连接一组扩张卷积，获得了更大的范围的扩张率，并且更加密集。在没有显著增加模型大小的情况下，DenseASPP在CityScapes上达到了State-of-the-art的表现。

Introduction

ASPP模块

扩张卷积用于解决特征图分辨率和接收野之间的矛盾，ASPP利用了多尺度信息进一步强化了分割效果。DeepLabv2中的ASPP模块如下：

这里写图片描述

但是在自动驾驶等领域有高分辨率的输入，ASPP为了获取足够大的感受野需要足够大的扩张率，但随着扩张率增加(d>24)，扩张卷积的衰退衰减无效了(DeepLabv3中分析过这个问题)。

DenseNet

DenseNet中用密集连接获得更加的性能：

这里写图片描述

但因为密集连接，特征的通道数会急速上升，DenseNet中使用 $1×1$ 的卷积用于降低通道数，限制了模型大小和计算量，同样的，在本文中也使用了多个 $1×1$ 卷积用于降低参数，限制计算量。

DenseASPP

论文提出的DenseASPP用于解决街道场景的尺度挑战，DenseASPP包含了一个基础网络，后面接了一个多级的扩张卷积层，如下图所示：

这里写图片描述

使用密集连接的方式将每个扩张卷积输出结合到一起，论文使用了较合理的扩张率(d<24)，通过一系列的扩张卷积组合级联，后面的神经元会获得越来越大的感受野，同步也避免了过大扩张率的卷积导致的卷积退化。

并且通过一系列的扩张卷积组合，特征图上的神经元对多个尺度的语义信息做编码，不同的中间特征图对来自不同尺度的信息做编码，DenseASPP的最终输出特征不仅覆盖了大范围的语义信息，并且还以非常密集的方式覆盖了做了信息编码。

总结，论文的主要贡献在于：

DenseASPP能够生成覆盖非常大的范围的接收野特征
DenseASPP能够以非常密集的方式生成的特征

需要注意的是，上述两个特性不能通过简单的并行或级联堆叠扩张卷积实现。

深度卷积神经网络为了获取更大感受野的特征会使用下采样(或池化)，但这会降低特征的分辨率，虽然获得特征的内部不变性但丢失了很多细节。DeepLab系列使用了扩张卷积获取更大感受野的同时保持图像的分辨率，并进一步提出了ASPP模块结合了多尺度信息，与此类似有PSPNet结合了不同尺度的池化信息。论文提出的DenseASPP结合了平行和级联的扩张卷积优点，在更大范围内生成更多尺度的特征。

DenseASPP是DenseNet的特例，可以看做是所有扩张率设置为1，这分享了DenseNet的优点，包括缓解了梯度消失的问题和大幅度减少参数。

Dense Atrous Spatial Pyramid Pooling

在城市交通道路环境中，存在不同尺度的目标物，这需要捕获不同尺度的特征，DeepLabv3给出了两个策略：

backbone:级联的扩张卷积（这和DRN，HDC是一个思想），逐渐获取到大的感受野特征
ASPP：同一输入上并行的扩张卷积组合，将输出级联到一起

论文使用 $H_{K,d}(x)$ 表示一个扩张卷积，ASPP表示如下：

y = H_{3, 6} (x) + H_{3, 12} (x) + H_{3, 18} (x) + H_{3, 24} (x)

$y=H_{3,6}(x)+H_{3,12}(x)+H_{3,18}(x)+H_{3,24}(x)$

Denser feature pyramid and larger receptive field

DenseASPP的结构如下：

这里写图片描述

可以看到扩张卷积级联起来，并且扩张率逐渐的增加，前面的层扩张率较低，后面的层扩张率较大。这和DenseNet的连接非常相似，DenseASPP的最终输出是由多扩张率、多尺度的扩张卷积生成的特征组成。可以将DenseASPP用如下公式表示：

y_{l} = H_{K,, d_{l}} ([y_{l - 1}, y_{l - 2}, . . ., y_{0}])

$y_{l}=H_{K,,d_{l}}([y_{l-1},y_{l-2},...,y_{0}])$
其中

d_{l}

$d_{l}$ 表示

l

$l$ 层的扩张率，

[. . .]

$[...]$ 表示级联concat操作。

[y_{l - 1}, y_{l - 2}, . . ., y_{0}]

$[y_{l-1},y_{l-2},...,y_{0}]$ 表示连接来自前面所有层的输出。与原先的ASPP模块相比，DenseASPP堆叠了所有扩张卷积并做了密集连接。这主要能带来2个收益：

密集的特征金字塔(denser feature pyramid)
更大的接收野(larger receptive field.)

Denser feature pyramid

扩张卷积能够增加卷积核的接收野，对于一个扩张率 $d$ ，卷积核大小为 $K$ ,接收野为：

R = (d - 1) \times (K - 1) + K

$R=(d-1)×(K-1)+K$ 例如一个

3 \times 3

$3×3$ 的卷积扩张卷积，扩张率为

d = 3

$d=3$ ，则对应的接收野为7。

堆叠两个扩张卷积能够得到更大的接收野，假设我们有两个卷积大小为 $K_{1},K_{2}$ ，则感受野为：

K = K_{1} + K_{2} - 1

$K=K_{1}+K_{2}-1$ 例如，一个尺寸为7和尺寸为13的卷积堆叠到一起，构成为接收野为19.

DenseASPP由包含扩张率为 $3,6,12,18$ 的扩张卷积，每组数字的表示扩张率的组合，长度表示等效的卷积核大小， $k$ 表示实际的接收野，如下所示：

这里写图片描述

K=3,d=3: $(3-1)×(3-1)+3=7$
K=3,d=6: $(6-1)×(3-1)+3=13$
K=3,d=3,d=6:
- 第一个扩张卷积： $(3-1)×(3-1)+3=7$
- 第二个扩张卷积： $(6-1)×(3-1)+3=13$
- 组合： $7+13-1=19$
K=3,d=12: $(12-1)×(3-1)+3=25$
K=3,d=3,12: $7+25-1=31$
K=3,d=3,6,12: $7+13+25-2=43$
K=3,d=3,6,12,18: $7+13+25+37-3=79$

显然，堆叠的扩张卷积下的DenseASPP的接收野是ASPP的一个超集(super set)。

更密集的采样

下图(a)显示了一个传统的一维扩张卷积，扩张率为6,接收野为13：

这里写图片描述

这么大的接收野条件下，只有3个像素被采样了用于计算，这样的情况下二维的情况下会更严重，虽然得到了更大的接收野，但是在计算的过程中丢弃了大量的信息。

上图(b)是扩张率3和扩张率为6的组合，和原先的扩张率为6的卷积(a)相比，(b)有7个像素参与了计算，计算更加密集。这在二维的情况下(c)有49个像素有助于计算。较大扩张率的卷积可从较小扩张率卷积中获得帮助，使得采样更为密集。

Larger receptive field

原先的ASPP是四个分支并行处理前馈，而DenseASPP模块通过了跳层共享了连接信息，大和小扩张率的卷积相互依赖，不仅构成了密集的特征金字塔，同时也获得了更大的接收野。

我们用 $R_{max}$ 表示特征金字塔的最大接收野，函数 $R_{K,d}$ 表示卷积核大小为 $K$ 的扩张率为 $d$ ，则ASPP(6,12,18,24)的最大接收野为:

R_{m a x} = max [R_{3, 6}, R_{3, 12}, R_{3, 18}, R_{3, 24}] $ = R_{3, 24} = 51

$R_{max}=\max[R_{3,6},R_{3,12},R_{3,18},R_{3,24}]$=R_{3,24}=51$

而相对的DenseASPP(6,12,18,24)的最大接收野为：

R_{m a x} = R_{3, 6} + R_{3, 12} + R_{3, 18} + R_{3, 24} - 3 = 122

$R_{max}=R_{3,6}+R_{3,12}+R_{3,18}+R_{3,24}-3=122$
这样大的感受野能够为大型目标提供全局信息。

Model size control

和DenseNet类似，DenseASPP也在扩张卷积之前使用了 $1×1$ 卷积用于减少特征图数，假设每个扩张卷积输出 $n$ 的特征图，DenseASPP有 $c_{0}$ 个特征图作为输入，在第 $l$ 的 $1×1$ 的卷积之前的第 $l$ 个扩张卷积有 $c_{l}$ 个输入特征图，则：

c_{l} = c_{0} + n \times (l - 1)

$c_{l}=c_{0}+n×(l-1)$
在扩张卷积之前的

1 \times 1

$1×1$ 卷积将通道数降低为

c_{0} / 2

$c_{0}/2$ 个通道，论文对DenseASPP中所有的扩张卷积层设置了

n = c_{0} / 8

$n=c_{0}/8$ 。DenseASPP中所有参数可计算为：

\begin{aligned} S & = \sum_{l = 1}^{L} [c_{l} \times 1^{2} \times \frac{c_{0}}{2} + \frac{c_{0}}{2} \times K^{2} \times n] \\ = \sum_{l = 1}^{L} [\frac{c_{0}}{2} (c_{0} + (l - 1) \times \frac{c_{0}}{8}) + \frac{c_{0}}{2} \times K^{2} \times \frac{c_{0}}{8}] \\ = \frac{c_{0}^{2}}{8} (15 + L + 2 K^{2}) L \end{aligned}

$\begin{align*} S&=\sum_{l=1}^{L}[c_{l}×1^{2}×\frac{c_{0}}{2}+\frac{c_{0}}{2}×K^{2}×n] \\ &= \sum_{l=1}^{L}[\frac{c_{0}}{2}(c_{0}+(l-1)×\frac{c_{0}}{8})+\frac{c_{0}}{2}×K^{2}×\frac{c_{0}}{8}] \\ &= \frac{c_{0}^{2}}{8}(15+L+2K^{2})L \end{align*}$

其中 $L$ 表示扩张卷积的层数， $K$ 表示卷积核大小。例如DenseNet121有512个通道，则 $n$ 设置为64。又因为每个扩张卷积之前都会有一个 $1×1$ 的卷积层用于减少通道数到256。因此，DenseASPP输出具有832个通道，参数比相应的DenseNet121要小很多。

Experiment

论文在CityScapes上测试，评价标准为mIoU.

实现细节

论文在PyTorch上实现，基本主干是在ImageNet上预训练，论文移除了后面两个池化层和分类层，对后面的层使用可扩张率为2和4的扩张卷积(这和DRN的处理方式一样)。修改后的ConvNet的输出是原输入的 $\frac{1}{8}$ ,后面接DenseASPP然后上采样与ground truth做cross entropy。

项目	配置
平台	PyTorch
优化器	Adam
权重衰减	0.00001
学习率	初始是0.0003，采用的时poly策略， $1-\frac{epoch}{max_{epoch}}^{0.9}$
数据增强	随机翻转，随机放缩 $[0.5,2]，随机亮度抖动$ [-10,10]，以及随机的 $512×512$ 的随机裁剪

所有的模型使用batch=8,跑了80个epoch，每轮的BN参数是统一更新的。

DenseASPP

论文使用了ResNet101为主干，配合DenseASPP(6,12,18,24)模块，在验证集上的结果如下，可以看到DenseASPP显著的提升了结果：

这里写图片描述

部分的可视化结果如下：

这里写图片描述

Detailed study on DenseASPP components

不同的DenseASPP设置得到的结果如下：

这里写图片描述

可以看到大概的趋势是随着接收野的增大，性能也提升。直到接收野到128后逐渐下降。

Comparing with state-of-the-art

论文在DenseNet161的基础上在精标签的数据上做训练，使用了多尺度 $\{0.5, 0.8, 1.0, 1.2, 1.5, 2.0\}$ ，与现有的先进模型对比，最终的结果如下：

这里写图片描述

各个分类结果如下：

这里写图片描述

Ablation Studies

论文研究了接收野大小和尺度/像素的采样率。

Feature similarities

可以看到下面两个例子，有足够的上下问才能够准确分类：

这里写图片描述

Visualization of receptive field

配合的移除后续池化层的可视化结果：

这里写图片描述

DenseASPP和ASPP对比的接收野如下：

这里写图片描述

Conclusion

DenseASPP能够以更密集的方式连接一组扩张卷积，可以在很大范围内有效的生成密集的空间采样和特征，在CityScapes上测试得到了state-of-the-art的结果。

语义分割--(DenseASPP )DenseASPP for Semantic Segmentation in Street Scenes

DenseASPP

Abstract

Introduction

ASPP模块

DenseNet

DenseASPP

Dense Atrous Spatial Pyramid Pooling