Abstract

空间金字塔池模块或编解码器结构普遍用于深度神经网络进行语义分割任务。空间金字塔池模块网络能够通过不同空洞率的、具有不同感受野的空洞卷积或池化操作，编码多尺度上下文信息，而编解码器结构可以通过逐步恢复空间信息来捕获更清晰的目标边界。deeplab v3+结合了这两种方法的优点。添加了解码器模块细化分割结果，特别是沿着对象边界。同时进一步探索了Xception模型，并将深度可分离卷积应用于空间空间金字塔池化和解码器模块，从而得到一个更快更强的编解码器网络。

1 Introduction

空间金字塔池：(以PSPNet 为例)PSPNet [24]在不同的网格尺度上执行池化操作。尽管在最后一个特征图中编码了丰富的语义信息，但由于网络主干内的池化或卷积，特征图不断减小，造成与对象边界相关的详细信息缺失。这个问题可以使用空洞卷积来解决。

但是，单纯的使用空洞卷积，当特征图缩小后，尤其是对于缩小16倍的特征图而言，大的空洞率的空洞卷积显然是无效的，需要对特征进行扩展。这个问题可以使用编解码器结构进行解决。

因此deeplab v3+在deeplab v3的基础上，将deeplab v3作为编码器，添加了解码器模块，提出了一种编解码器结构。

3 Methods

DeepLabv3 as encoder:将deeplab v3作为编码器模块，并将deeplab的输出结果作为编码器的输出结果，输出特征图包含256个通道数。

Proposed decoder:DeepLabv3直接将特征上采样16倍，能无法成功地恢复目标分割的细节。因此，作者提出了一个简单而有效的解码器模块，如图2所示。编码器特征首先提前上采样4倍，然后与网络主干中具有相同空间分辨率的相应低级特征[73]连接。同时应用一个1*1的卷积调整通道数（256个），在连接之后，应用几个3×3卷积来细化特征，然后使用双线性插值，将特征上采样4倍。