ABSTRACT

进一步探讨 空洞卷积 ，因为在语义分割任务里，它可以调整滤波器视野、控制深度卷积神经网络计算的特征响应的分辨率；
为了解决多尺度的目标分割问题，我们设计了空洞卷积级联或并行方式，对不同尺度环境来使用不同采样率 (rate) 空洞卷积；
增强 ASPP模块，该模块能在多个尺度上获取卷积特征，进一步提升性能。

※论文核心思想：

重新讨论空洞卷积使用；
改进ASPP模块；

1. INTRODUCTION

对于语义分割任务，在应用深度卷积神经网络DCNNs中的有两个挑战：

连续池化和卷积等下采样操作，导致特征分辨率下降，高层特征具有局部图像变换的内在不变性，会妨碍密集的定位预测，解决这一问题的办法则是使用 空洞卷积；

多尺度object的存在。现有多种处理多尺度目标的方法，我们主要考虑4种，如下图：

a. Image Pyramid：将输入图片放缩成不同尺度，分别输入到DCNN上，将预测结果融合得到最终输出；
b. Encoder-Decoder:：利用Encoder阶段的多尺度特征，从Decoder阶段恢复空间分辨率(代表工作有FCN、SegNet、PSPNet等工作)；
c. Deeper w. Atrous Convolution：将额外的模块级联在原始网络顶端，例如DenseCRF，捕获远程信息；
d. Spatial Pyramid Pooling：空间金字塔池化按照不同采样率和多种视野的卷积核，来实现多尺度捕捉对象。

DeepLab v3主要贡献：

重新讨论空洞卷积的使用，让我们在级联模块和空间金字塔池化的框架下，能够获取更大的感受野从而获取多尺度信息。
改进ASPP模块：由不同采样率的空洞卷积和BN层组成，我们尝试以级联或并行的方式布局模块。
讨论了一个重要问题：当使用大采样率的3×3的空洞卷积，因为图像边界响应无法捕捉远程信息，会退化为1×1的卷积,，我们建议将图像级特征融合到ASPP模块中。

2. Methods

2.1. Atrous Convolution for Dense Feature Extraction

这部分讲的就是空洞卷积原理，这个在 DeepLab v1 和 DeepLab v2 详细讲述过，这里就不重复。

2.2. Going Deeper with Atrous Convolution

注意：output stride这个值是输入图像的空间分辨率和输出特征图的空间分辨率的比值.。

如上图(a)所示，整个图像的特征归结到最后的小特征图上，不利于语义分割。
上图(b)，可使用不同采样率的空洞卷积保持输出步幅的为output stride = 16，这样不增加参数量和计算量同时有效的缩小了步幅。

上表可以看出output stride越大，得到的结果越差，因为连续的下采样会降低特征映射的分辨率，细节信息被抽取，这只会语义分割是有害的，结果最好的output stride = 8 却需要占用较多的存储空间。

2.3. Atrous Spatial Pyramid Pooling

       在DeepLab v2中提出的 ASPP模块 中，它在特征顶部映射图并行使用了四种不同采样率的空洞卷积。这表明以不同尺度采样是有效的，而在DeepLab v3中则是还向ASPP中添加了BN层。不同采样率的空洞卷积可以有效的捕获多尺度信息，但是，我们发现随着采样率的增加，滤波器的有效权重(权重有效的应用在特征区域，而不是填充0)逐渐变小。如下图所示：

       采样率发生变化时，在65×65特征图上使用3×3过滤器对有效权重进行归一化计数。

Q1：当采样率较小时，所有9个滤波权值都应用到大部分特征图有效部分，当采样率逐渐增大时，3×3的滤波权值( 9 vaild weights )退化为1×1的滤波权值( 1 vaild weights )，只有中心点权重有效。

A1： 为了克服这个问题，我们考虑使用图片级特征。具体来说，我们在模型最后的特征映射上应用全局平均池化，将结果经过 1×1×256 的卷积，再双线性上采样得到目标的空间维度。最终，我们改进的ASPP地方包括：

一个1×1和三个3×3采样率为rates=(6,12,18)的空洞卷积，滤波器数量为256以及BN层。且output stride = 16，如下图(a)；

图像级特征，即对特征做全局平均池化，经过卷积，最后融合。如下图(b)。

注意当output stride = 8时，加倍了采样率。所有的特征通过1×1级联到一起，生成最终的scores。