DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation - 用于语义图像分割的空洞可分离卷积编解码器（ECCV 2018）

摘要
1. 引言
2. 相关工作
3. 方法
- 3.1 具有空洞卷积的编解码器
- 3.2 修改的对齐Xception
4. 实验评价
5. 结论
References

声明：此翻译仅为个人学习记录

文章信息

标题：DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV 2018)

作者：Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam

文章链接：https://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdf

文章代码：https://github.com/tensorflow/models/tree/master/research/deeplab

摘要

空间金字塔池化模块或编码解码器结构用于深度神经网络中的语义分割任务。前一种网络能够通过以多个速率和多个有效视场使用滤波器或池化操作来探测传入特征，从而对多尺度上下文信息进行编码，而后一种网络可以通过逐渐恢复空间信息来捕捉更清晰的目标边界。在这项工作中，我们建议将这两种方法的优点结合起来。具体而言，我们提出的模型DeepLabv3+通过添加一个简单而有效的解码器模块来细化分割结果，特别是沿着目标边界的分割结果，从而扩展了DeepLabv3。我们进一步探索了Xception模型，并将深度可分离卷积应用于空洞空间金字塔池化和解码器模块，从而产生更快、更强的编码器-解码器网络。我们在PASCAL VOC 2012和Cityscapes数据集上证明了所提出的模型的有效性，在没有任何后处理的情况下实现了89%和82.1%的测试集性能。我们的论文附有Tensorflow中所提出模型的公开参考实现，网址为https://github.com/tensorflow/models/tree/master/research/deeplab.

关键词：语义图像分割，空间金字塔池，编码器-解码器，深度可分离卷积。

1. 引言

以给图像中的每个像素分配语义标签为目标的语义分割[1,2,3,4,5]是计算机视觉的基本主题之一。基于完全卷积神经网络[8，11]的深度卷积神经网络[6，7，8，9，10]在基准任务上比依赖手工制作的特征[12，13，14，15，16，17]的系统有了显著的改进。在这项工作中，我们考虑了两种类型的神经网络，它们使用空间金字塔池模块[18，19，20]或编码器-解码器结构[21，22]进行语义分割，其中前者通过池化不同分辨率的特征来捕获丰富的上下文信息，而后者能够获得清晰的目标边界。

在这里插入图片描述

图1. 我们改进了DeepLabv3，它采用了空间金字塔池模块（a）和编码器-解码器结构（b）。所提出的模型DeepLabv3+包含来自编码器模块的丰富语义信息，而详细的目标边界则由简单而有效的解码器模块恢复。编码器模块允许我们通过应用空洞卷积以任意分辨率提取特征。

为了在多个尺度上捕获上下文信息，DeepLabv3[23]应用了几种不同速率的并行空洞卷积（称为atrous Spatial Pyramid Pooling，简称ASPP），而PSPNet[24]在不同的网格尺度上执行池化操作。即使在最后一个特征图中编码了丰富的语义信息，但由于网络主干内的跨接操作的池化或卷积，与目标边界相关的详细信息也会丢失。这可以通过应用空洞卷积来提取更密集的特征图来缓解。然而，考虑到最先进的神经网络[7，9，10，25，26]的设计和有限的GPU内存，提取比输入分辨率小8倍甚至4倍的输出特征图在计算上是禁止的。以ResNet-101[25]为例，当应用空洞卷积来提取比输入分辨率小16倍的输出特征时，必须扩展最后3个残差块（9层）内的特征。更糟糕的是，如果需要比输入小8倍的输出特征，26个残差块（78层！）将受到影响。因此，如果为这种类型的模型提取更密集的输出特征，则计算密集。另一方面，编码器-解码器模型[21，22]有助于编码器路径中更快的计算（因为没有扩展特征），并逐渐恢复解码器路径中清晰的目标边界。为了结合这两种方法的优点，我们建议通过结合多尺度上下文信息来丰富编码器-解码器网络中的编码器模块。

特别是，我们提出的称为DeepLabv3+的模型通过添加一个简单而有效的解码器模块来恢复目标边界，从而扩展了DeepLabv3[23]，如图1所示。丰富的语义信息被编码在DeepLabv3的输出中，空洞卷积允许根据计算资源的预算来控制编码器特征的密度。此外，解码器模块允许详细的目标边界恢复。

受深度可分离卷积[27，28，26，29，30]最近成功的启发，我们还探索了这种操作，并通过将类似于[31]的Xception模型[26]应用于语义分割任务，并将空洞可分离卷积应用于ASPP和解码器模块，在速度和准确性方面都有所改进。最后，我们在PASCAL VOC 2012和Cityscapes数据集上证明了所提出的模型的有效性，并在没有任何后处理的情况下获得了89.0%和82.1%的测试集性能，创造了新的技术水平。

总之，我们的贡献是：

我们提出了一种新颖的编码器-解码器结构，该结构采用DeepLabv3作为强大的编码器模块和简单有效的解码器模块。
在我们的结构中，可以通过空洞卷积任意控制提取的编码器特征的分辨率，以权衡精度和运行时间，这在现有的编码器-解码器模型中是不可能的。
我们将Xception模型用于分割任务，并将深度可分离卷积应用于ASPP模块和解码器模块，从而形成更快、更强的编码器-解码器网络。
我们提出的模型在PASCAL VOC 2012和Cityscapes数据集上达到了最先进的性能。我们还提供了设计选择和模型变体的详细分析。
我们将基于Tensorflow的拟议模型实施公开于https://github.com/tensorflow/models/tree/master/research/deeplab.

2. 相关工作

基于全卷积网络（FCN）[8，11]的模型在几个分割基准[1,2,3,4,5]上得到了显著改进。有几种模型变体被提出来利用上下文信息进行分割[12，13，14，15，16，17，32，33]，包括那些采用多尺度输入（即图像金字塔）的模型[34，35，36，37，38，39]或那些采用概率图形模型的模型（如具有高效推理算法的DenseCRF[40][41]）[42，43，44，37，45，46，47，48，49，50，51，39]。在这项工作中，我们主要讨论了使用空间金字塔池和编码器-解码器结构的模型。

空间金字塔池：PSPNet[24]或DeepLab[39，23]等模型在几个网格尺度上执行空间金字塔池[18，19]（包括图像级池[52]），或应用不同速率的几个并行空洞卷积（称为atrous Spatial pyramid pooling或ASPP）。通过利用多尺度信息，这些模型在几个分割基准上显示出了有希望的结果。

编码器-解码器：编码器-解码器网络已成功应用于许多计算机视觉任务，包括人体姿态估计[53]、目标检测[54，55，56]和语义分割[11，57，21，22，58，59，60，61，62，63，64]。通常，编码器-解码器网络包含（1）逐渐减少特征图并捕获更高语义信息的编码器模块，以及（2）逐渐恢复空间信息的解码器模块。基于这一想法，我们建议使用DeepLabv3[23]作为编码器模块，并添加一个简单而有效的解码器模块，以获得更清晰的分割。

在这里插入图片描述

图2. 我们提出的DeepLabv3+通过采用编码器-解码器结构扩展了DeepLabv3。编码器模块通过在多个尺度上应用空洞卷积来编码多尺度上下文信息，而简单而有效的解码器模块则沿着目标边界细化分割结果。

深度可分离卷积：深度可分离卷[27，28]或群卷积[7，65]，这是一种强大的运算，可以降低计算成本和参数数量，同时保持类似（或稍好）的性能。这种操作已被许多最近的神经网络设计所采用[66，67，26，29，30，31，68]。特别是，我们探索了Xception模型[26]，类似于[31]的COCO 2017检测挑战提交，并显示了语义分割任务在准确性和速度方面的改进。

3. 方法

在本节中，我们简要介绍了空洞卷积[69，70，8，71，42]和深度可分离卷积[27，28，67，26，29]。然后，我们回顾了DeepLabv3[23]，它被用作我们的编码器模块，然后讨论了附加在编码器输出中的解码器模块。我们还提出了一个改进的Xception模型[26，31]，该模型通过更快的计算进一步提高了性能。

3.1 具有空洞卷积的编解码器

空洞卷积：空洞卷积层是一种强大的工具，它使我们能够明确控制深度卷积神经网络计算的特征的分辨率，并调整滤波器的视场以捕获多尺度信息，它推广了标准卷积运算。在二维信号的情况下，对于输出特征图y上的每个位置i和卷积滤波器w，如下在输入特征图x上应用空洞卷积：
在这里插入图片描述
其中空洞率r确定了我们对输入信号进行采样的步幅。我们请感兴趣的读者参考[39]了解更多详细信息。注意，标准卷积是速率r＝1的特殊情况。通过改变速率值自适应地修改滤波器的视场。

在这里插入图片描述

图3. 3×3深度可分离卷积将标准卷积分解为（a）深度卷积（对每个输入通道应用单个滤波器）和（b）逐点卷积（跨通道组合深度卷积的输出）。在这项工作中，我们探索了空洞可分离卷积，其中在深度卷积中采用空洞卷积，如（c）所示，速率=2。

深度可分离卷积：深度可分离的卷积，将标准卷积分解为深度卷积，然后是逐点卷积（即1×1卷积），大大降低了计算复杂度。具体地，深度卷积对每个输入通道独立地执行空间卷积，而逐点卷积用于组合深度卷积的输出。在深度可分离卷积的TensorFlow[72]实现中，在深度卷积（即空间卷积）中支持空洞卷积，如图3所示。在这项工作中，我们将得到的卷积称为空洞可分离卷积，并发现空洞可分离卷积显著降低了所提出模型的计算复杂度，同时保持了类似（或更好）的性能。

DeepLabv3作为编码器：DeepLabv3[23]采用空洞卷积[69，70，8，71]以任意分辨率提取深度卷积神经网络计算的特征。这里，我们将输出步幅表示为输入图像空间分辨率与最终输出分辨率的比率（在全局池化或完全连接层之前）。对于图像分类任务，最终特征图的空间分辨率通常是输入图像分辨率的32倍，因此输出步长＝32。对于语义分割任务，可以通过去除最后一个（或两个）块中的跨步并相应地应用空洞卷积（例如，对于输出跨步=8，我们分别对最后两个块应用rate=2和rate=4），采用输出跨步=16（或8）来进行更密集的特征提取。此外，DeepLabv3增强了空洞空间金字塔池模块，该模块通过应用具有图像级特征的不同速率的空洞卷积，在多个尺度上探测卷积特征[52]。在我们提出的编码器-解码器结构中，我们使用原始DeepLabv3中logits之前的最后一个特征图作为编码器输出。请注意，编码器输出特征图包含256个通道和丰富的语义信息。此外，根据计算预算，可以通过应用空洞卷积以任意分辨率提取特征。

提出的解码器：DeepLabv3中的编码器特征通常是用输出步幅=16来计算的。在[23]的工作中，特征被两次上采样了16倍，这可以被认为是一个幼稚的解码器模块。然而，这种幼稚的解码器模块可能无法成功地恢复目标分割细节。因此，我们提出了一个简单而有效的解码器模块，如图2所示。编码器特征首先以因子4进行双线性上采样，然后与来自具有相同空间分辨率的网络主干的相应低级特征[73]级联（例如，在ResNet-101[25]中跨步之前的Conv2）。我们对低级别特征应用另一个1×1卷积来减少通道的数量，因为相应的低级别特征通常包含大量通道（例如，256或512），这可能超过丰富编码器特征的重要性（在我们的模型中只有256个通道），并使训练更加困难。在级联之后，我们应用一些3×3卷积来细化特征，然后用因子4进行另一个简单的双线性上采样。我们在第4节中表明，使用编码器模块的输出步长=16可以在速度和精度之间取得最佳平衡。当以额外的计算复杂度为代价对编码器模块使用输出步幅=8时，性能得到了略微改善。

3.2 修改的对齐Xception

Xception模型[26]在ImageNet[74]上以快速计算显示了有希望的图像分类结果。最近，MSRA团队[31]修改了Xception模型（称为Aligned Xception），并进一步提高了目标检测任务的性能。受这些发现的启发，我们朝着同样的方向努力，使Xception模型适应语义图像分割的任务。特别是，我们在MSRA的修改基础上又做了一些更改，即（1）与[31]中相同的更深层次的Xception，只是我们没有修改入口流网络结构以实现快速计算和内存效率，（2）所有的最大池化操作都被带跨步的深度可分离卷积所取代，这使我们能够应用空洞可分离卷积来提取任意分辨率的特征图（另一种选择是将空洞算法扩展到最大池操作），以及（3）在每个3×3深度卷积之后添加额外的批处理归一化[75]和ReLU激活，类似于MobileNet设计[29]。具体见图4。

4. 实验评价

我们使用ImageNet-1k[74]预训练的ResNet-101[25]或修改的对齐Xception[26，31]通过空洞卷积提取密集特征图。我们的实现建立在TensorFlow[72]的基础上，并公开提供。

在这里插入图片描述

图4. 我们对Xception进行了如下修改：（1）更多的层（除了入口流的变化外，与MSRA的修改相同），（2）所有的最大池化操作都被带跨步的深度可分离卷积所取代，以及（3）在每个3×3深度卷积后添加额外的批处理归一化和ReLU，类似于MobileNet。

所提出的模型是在PASCAL VOC 2012语义分割基准[1]上进行评估的，该基准包含20个前景目标类和一个背景类。原始数据集包含1464（训练）、1449（验证）和1456（测试）像素级注释图像。我们通过[76]提供的额外注释来扩充数据集，得到10582张（train aug）训练图像。性能是根据在21个类别上平均的并集上的像素交叉（mIOU）来测量的。

我们遵循与[23]中相同的训练方案，并请感兴趣的读者参考[23]了解详细信息。简言之，我们采用相同的学习率计划（即“poly”策略[52]和相同的初始学习率0.007），裁剪大小513×513，当输出步长=16时微调批量归一化参数[75]，并在训练过程中增加随机尺度数据。注意，我们还在所提出的解码器模块中包括批量归一化参数。我们提出的模型是端到端训练的，而不需要对每个组件进行分段预训练。

4.1 解码器设计选择

我们将“DeepLabv3特征图”定义为DeepLabv3计算的最后一个特征图（即包含ASPP特征和图像级特征的特征），并将[k×k，f]定义为具有内核k×k和f滤波器的卷积运算。

当采用输出步幅=16时，基于ResNet-101的DeepLabv3[23]在训练和评估期间对logits进行双线性上采样16。这种简单的双线性上采样可以被认为是一种幼稚的解码器设计，在PASCAL VOC 2012 验证集上获得77.21%[23]的性能，并且比在训练期间不使用这种幼稚的解码器（即，在训练期间下采样基本事实）好1.2%。为了改进这一幼稚的基线，我们提出的模型“DeepLabv3+”在编码器输出的顶部添加了解码器模块，如图2所示。在解码器模块中，我们考虑了三个不同设计选择的地方，即（1）用于减少编码器模块低级别特征图的通道的1×1卷积，（2）用于获得更清晰的分割结果的3×3卷积，以及（3）应该使用什么编码器低级别特征。

为了评估解码器模块中1×1卷积的效果，我们使用了[3×3，256]和来自ResNet-101网络主干的Conv2特征，即res2x残差块中的最后一个特征图（具体地说，我们在跨步之前使用特征图）。如表1所示，将编码器模块的低级别特征图的通道减少到48或32会带来更好的性能。因此，我们采用[1×1，48]进行通道缩减。

然后，我们为解码器模块设计了3×3卷积结构，并在表2中报告了研究结果。我们发现，在将Conv2特征图（跨步前）与DeepLabv3特征图连接后，使用两个3×3卷积和256个滤波器比简单地使用一个或三个卷积更有效。将滤波器的数量从256更改为128或将内核大小从3×3更改为1×1会降低性能。我们还实验了在解码器模块中同时利用Conv2和Conv3特征图的情况。在这种情况下，解码器特征图逐渐上采样2，首先与Conv3连接，然后与Conv2连接，每个特征图将通过[3×3，256]运算进行细化。整个解码过程类似于U-Net/SegNet设计[21，22]。然而，我们没有观察到明显的改善。因此，最后，我们采用了一个非常简单但有效的解码器模块：DeepLabv3特征图和通道缩减的Conv2特征图的级联通过两个[3×3，256]运算进行细化。请注意，我们提出的DeepLabv3+模型的输出步长为4。在GPU资源有限的情况下，我们不追求更密集的输出特征图（即，输出步长＜4）。

4.2 ResNet-101作为网络骨干

为了在准确性和速度方面比较模型变体，我们在表3中报告了在所提出的DeepLabv3+模型中使用ResNet-101[25]作为网络骨干时的mIOU和Multiply-Adds。得益于空洞卷积，我们能够在训练和评估过程中使用单个模型获得不同分辨率的特征。

在这里插入图片描述

表1. PASCAL VOC 2012验证集。解码器1×1卷积的效果用于减少来自编码器模块的低级别特征图的通道。我们将解码器结构中的其他组件固定为使用[3×3，256]和Conv2。

在这里插入图片描述

表2. 固定[1×1，48]时解码器结构的影响，以减少编码器的特征通道。我们发现，使用Conv2（跨步前）特征图和两个额外的[3×3，256]运算是最有效的。VOC 2012验证集的性能。

在这里插入图片描述

表3. 使用ResNet-101对PASCAL VOC 2012验证集的推断策略。train OS：训练中使用的输出步幅。eval OS：评估过程中使用的输出步幅。解码器：采用所提出的解码器结构。MS：评估过程中的多尺度输入。翻转：添加左右翻转的输入。

在这里插入图片描述

表4. ImageNet-1K验证集上的单个模型错误率。

基线：表3中的第一行块包含[23]的结果，表明在评估过程中提取更密集的特征图（即评估输出步长=8）并采用多尺度输入可以提高性能。此外，添加左右翻转输入使计算复杂度加倍，性能仅略有提高。

添加解码器：表3中的第二行块包含采用所提出的解码器结构时的结果。当使用eval输出步幅=16或8时，性能分别从77.21%提高到78.85%或从78.51%提高到79.35%，代价是大约20B的额外计算开销。当使用多尺度和左右翻转输入时，性能得到进一步提高。

Coarser特征图：我们还实验了使用训练输出步幅=32（即，在训练过程中根本没有空洞卷积）进行快速计算的情况。如表3中的第三行所示，添加解码器带来了2%的改进，而只需要74.20B的Multiply-Adds。然而，性能总是比我们使用train输出步幅=16和不同的eval输出步幅值的情况低大约1%到1.5%。因此，根据复杂度预算，我们更喜欢在训练或评估期间使用输出步幅=16或8。

4.3 作为网络骨干的Xception

我们进一步使用更强大的Xception[26]作为网络骨干。在[31]之后，我们又进行了一些更改，如第3.2节所述。

ImageNet预训练：所提出的Xception网络是在ImageNet-1k数据集[74]上进行预训练的，具有[26]中类似的训练协议。具体而言，我们采用Nesterov动量优化器，动量=0.9，初始学习率=0.05，每2个时期的速率衰减=0.94，权重衰减4e−5。我们使用50个GPU的异步训练，每个GPU的批大小为32，图像大小为299×299。我们没有非常努力地调整超参数，因为目标是在ImageNet上预训练模型以进行语义分割。我们在表4中报告了验证集的单模型错误率，以及在相同训练方案下复制的基线ResNet-101[25]。我们观察到，在修改的Xception中，当不在每次3×3深度卷积后添加额外的批量归一化和ReLU时，Top1和Top5的精度分别下降了0.75%和0.29%。

表5报告了使用所提出的Xception作为语义分割的网络主干的结果。

基线：我们首先在表5的第一行块中报告了在不使用所提出的解码器的情况下的结果。这表明，与使用ResNet-101的情况相比，当train输出步幅=eval输出步幅=16时，使用Xception作为网络主干将性能提高约2%。还可以通过使用eval输出步幅=8、推理过程中的多尺度输入和添加左右翻转输入来获得进一步的改进。请注意，我们没有使用多网格方法[77，78，23]，我们发现这并不能提高性能。

添加解码器：如表5中的第二行块所示，对于所有不同的推理策略，当使用eval输出步幅=16时，添加解码器带来了0.8%的改进。当使用eval输出步幅=8时，改进会变小。

使用深度可分离卷积：受深度可分离卷积的高效计算的启发，我们在ASPP和解码器模块中进一步采用了它。如表5第三行所示，Multiply-Adds的计算复杂度显著降低了33%至41%，同时获得了类似的mIOU性能。

对COCO进行预训练：为了与其他现有模型进行比较，我们在MS-COCO数据集[79]上进一步预训练了我们提出的DeepLabv3+模型，这对所有不同的推理策略产生了大约2%的额外改进。

JFT上的预训练：与[23]类似，我们还采用了所提出的Xception模型，该模型已在ImageNet-1k[74]和JFT-300M数据集[80，26，81]上进行了预训练，这带来了额外的0.8%至1%的改进。

测试集结果：由于在基准评估中没有考虑计算复杂度，因此我们选择了最佳性能模型，并使用输出步长=8和冻结的批量归一化参数对其进行训练。最终，我们的“DeepLabv3+”在没有和有JFT数据集预训练的情况下分别获得了87.8%和89.0%的性能。

定性结果：我们在图6中提供了最佳模型的可视化结果。如图所示，我们的模型能够很好地分割目标，而无需任何后期处理。

故障模式：如图6的最后一行所示，我们的模型很难分割（a）沙发与椅子，（b）严重遮挡的目标，以及（c）视野罕见的目标。

4.4 沿目标边界的改进

在本小节中，我们使用三映射实验[14，40，39]来评估分割精度，以量化所提出的解码器模块在目标边界附近的精度。具体来说，我们对验证集上的“void”标签注释应用形态学膨胀，这通常发生在目标边界附近。然后，我们计算那些在“void”标签的扩张带（称为三重图）内的像素的平均IOU。如图5（a）所示，与天真的双线性上采样相比，将所提出的解码器用于ResNet-101[25]和Xception[26]网络主干提高了性能。当扩张带较窄时，改善更为显著。如图所示，在最小的三分图宽度下，我们观察到ResNet-101和Xception的mIOU分别提高了4.8%和5.4%。我们还在图5（b）中可视化了使用所提出的解码器的效果。

在这里插入图片描述

表5. 当使用修改的Xception时，对PASCAL VOC 2012 验证集的推断策略。train OS：训练中使用的输出步幅。eval OS：评估过程中使用的输出步幅。解码器：采用所提出的解码器结构。MS：评估过程中的多尺度输入。翻转：添加左右翻转的输入。SC：ASPP和解码器模块都采用深度可分离卷积。COCO：在MS-COCO上预训练的模型。JFT：在JFT上预训练的模型。

4.5 Cityscapes实验结果

在本节中，我们在Cityscapes数据集[3]上对DeepLabv3+进行了实验，该数据集是一个大型数据集，包含5000张图像（分别为2975、500和1525张用于训练、验证和测试集）的高质量像素级注释和约20000张粗略注释的图像。

在这里插入图片描述

表6. PASCAL VOC 2012测试集与性能最佳的模型一起获得结果。

在这里插入图片描述

图5.（a）当采用train输出步幅＝eval输出步幅=16时，mIOU作为目标边界周围的三映射带宽的函数。BU：双线性上采样。（b）与幼稚双线性上采样（表示为BU）相比，使用所提出的解码器模块的定性效果。在示例中，我们采用Xception作为特征提取器，并且train输出步幅=eval输出步幅=16。

如表7（a）所示，在DeepLabv3[23]之上使用所提出的Xception模型作为网络骨干（表示为X-65），该模型包括ASPP模块和图像级特征[52]，在验证集上获得了77.33%的性能。添加所提出的解码器模块将性能显著提高到78.79%（提高1.46%）。我们注意到，去除增强图像级特征将性能提高到79.14%，这表明在DeepLab模型中，图像级特征在PASCAL VOC 2012数据集上更有效。我们还发现，在Cityscapes数据集上，在Xception中增加更多的入口流层是有效的[26]，与[31]对目标检测任务所做的相同。在更深的网络主干之上构建的最终模型（表中表示为X-71）在验证集上获得了79.55%的最佳性能。

在这里插入图片描述

图6.验证集上的可视化结果。最后一行显示了故障模式。

在这里插入图片描述

表7.（a） Cityscapes上的DeepLabv3+在训练时使用训练精细设置。（b） Cityscapes测试集上的DeepLabv3+。粗：也可以使用额外的训练集（粗注释）。此表中只列出了一些顶级模型。

在验证集上找到最佳模型变体后，我们在粗略注释上进一步微调模型，以便与其他现有技术的模型竞争。如表7（b）所示，我们提出的DeepLabv3+在测试集上的性能达到了82.1%，在Cityscapes上创下了新的性能水平。

5. 结论

我们提出的模型“DeepLabv3+”采用编码器-解码器结构，其中DeepLabv3用于对丰富的上下文信息进行编码，并采用简单而有效的解码器模块来恢复对象边界。根据可用的计算资源，还可以应用空洞卷积以任意分辨率提取编码器特征。我们还探索了Xception模型和空洞可分离卷积，以使所提出的模型更快、更强。最后，我们的实验结果表明，所提出的模型在PASCAL VOC 2012和Cityscapes数据集上设置了新的最先进的性能。

Acknowledgments 我们要感谢与Haozhi Qi和Jifeng Dai就Aligned Xception进行的宝贵讨论、Chen Sun的反馈以及谷歌移动视觉团队的支持。

References

Everingham, M., Eslami, S.M.A., Gool, L.V., Williams, C.K.I., Winn, J., Zisserman, A.: The pascal visual object classes challenge a retrospective. IJCV (2014)
Mottaghi, R., Chen, X., Liu, X., Cho, N.G., Lee, S.W., Fidler, S., Urtasun, R., Yuille, A.: The role of context for object detection and semantic segmentation in the wild. In: CVPR. (2014)
Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele, B.: The cityscapes dataset for semantic urban scene understanding. In: CVPR. (2016)
Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., Torralba, A.: Scene parsing through ade20k dataset. In: CVPR. (2017)
Caesar, H., Uijlings, J., Ferrari, V.: COCO-Stuff: Thing and stuff classes in context. In: CVPR. (2018)
LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. In: Proc. IEEE. (1998)
Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. (2012)
Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., LeCun, Y.: Overfeat: Integrated recognition, localization and detection using convolutional networks. In: ICLR. (2014)
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: ICLR. (2015)
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: CVPR. (2015)
Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR. (2015)
He, X., Zemel, R.S., Carreira-Perpindn, M.: Multiscale conditional random fields for image labeling. In: CVPR. (2004)
Shotton, J., Winn, J., Rother, C., Criminisi, A.: Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context. IJCV (2009)
Kohli, P., Torr, P.H., et al.: Robust higher order potentials for enforcing label consistency. IJCV 82(3) (2009) 302–324
Ladicky, L., Russell, C., Kohli, P., Torr, P.H.: Associative hierarchical crfs for object class image segmentation. In: ICCV. (2009)
Gould, S., Fulton, R., Koller, D.: Decomposing a scene into geometric and semantically consistent regions. In: ICCV. (2009)
Yao, J., Fidler, S., Urtasun, R.: Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation. In: CVPR. (2012)
Grauman, K., Darrell, T.: The pyramid match kernel: Discriminative classification with sets of image features. In: ICCV. (2005)
Lazebnik, S., Schmid, C., Ponce, J.: Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In: CVPR. (2006)
He, K., Zhang, X., Ren, S., Sun, J.: Spatial pyramid pooling in deep convolutional networks for visual recognition. In: ECCV. (2014)
Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: MICCAI. (2015)
Badrinarayanan, V., Kendall, A., Cipolla, R.: Segnet: A deep convolutional encoder-decoder architecture for image segmentation. PAMI (2017)
Chen, L.C., Papandreou, G., Schroff, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv:1706.05587 (2017)
Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In: CVPR. (2017)
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR. (2016)
Chollet, F.: Xception: Deep learning with depthwise separable convolutions. In: CVPR. (2017)
Sifre, L.: Rigid-motion scattering for image classification. PhD thesis (2014)
Vanhoucke, V.: Learning visual representations at scale. ICLR invited talk (2014)
Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861 (2017)
Zhang, X., Zhou, X., Lin, M., Sun, J.: Shufflenet: An extremely efficient convolutional neural network for mobile devices. In: CVPR. (2018)
Qi, H., Zhang, Z., Xiao, B., Hu, H., Cheng, B., Wei, Y., Dai, J.: Deformable convolutional networks – coco detection and segmentation challenge 2017 entry. ICCV COCO Challenge Workshop (2017)
Mostajabi, M., Yadollahpour, P., Shakhnarovich, G.: Feedforward semantic segmentation with zoom-out features. In: CVPR. (2015)
Dai, J., He, K., Sun, J.: Convolutional feature masking for joint object and stuff segmentation. In: CVPR. (2015)
Farabet, C., Couprie, C., Najman, L., LeCun, Y.: Learning hierarchical features for scene labeling. PAMI (2013)
Eigen, D., Fergus, R.: Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In: ICCV. (2015)
Pinheiro, P., Collobert, R.: Recurrent convolutional neural networks for scene labeling. In: ICML. (2014)
Lin, G., Shen, C., van den Hengel, A., Reid, I.: Efficient piecewise training of deep structured models for semantic segmentation. In: CVPR. (2016)
Chen, L.C., Yang, Y., Wang, J., Xu, W., Yuille, A.L.: Attention to scale: Scale-aware semantic image segmentation. In: CVPR. (2016)
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI (2017)
Kr¨ahenb¨uhl, P., Koltun, V.: Efficient inference in fully connected crfs with gaussian edge potentials. In: NIPS. (2011)
Adams, A., Baek, J., Davis, M.A.: Fast high-dimensional filtering using the per mutohedral lattice. In: Eurographics. (2010)
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic image segmentation with deep convolutional nets and fully connected crfs. In: ICLR. (2015)
Bell, S., Upchurch, P., Snavely, N., Bala, K.: Material recognition in the wild with the materials in context database. In: CVPR. (2015)
Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., Huang, C., Torr, P.: Conditional random fields as recurrent neural networks. In: ICCV. (2015)
Liu, Z., Li, X., Luo, P., Loy, C.C., Tang, X.: Semantic image segmentation via deep parsing network. In: ICCV. (2015)
Papandreou, G., Chen, L.C., Murphy, K., Yuille, A.L.: Weakly- and semi-supervised learning of a dcnn for semantic image segmentation. In: ICCV. (2015)
Schwing, A.G., Urtasun, R.: Fully connected deep structured networks. arXiv:1503.02351 (2015)
Jampani, V., Kiefel, M., Gehler, P.V.: Learning sparse high dimensional filters: Image filtering, dense crfs and bilateral neural networks. In: CVPR. (2016)
Vemulapalli, R., Tuzel, O., Liu, M.Y., Chellappa, R.: Gaussian conditional random field network for semantic segmentation. In: CVPR. (2016)
Chandra, S., Kokkinos, I.: Fast, exact and multi-scale inference for semantic image segmentation with deep Gaussian CRFs. In: ECCV. (2016)
Chandra, S., Usunier, N., Kokkinos, I.: Dense and low-rank gaussian crfs using deep embeddings. In: ICCV. (2017)
Liu, W., Rabinovich, A., Berg, A.C.: Parsenet: Looking wider to see better. arXiv:1506.04579 (2015)
Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. In: ECCV. (2016)
Lin, T.Y., Doll´ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: CVPR. (2017)
Shrivastava, A., Sukthankar, R., Malik, J., Gupta, A.: Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851 (2016)
Fu, C.Y., Liu, W., Ranga, A., Tyagi, A., Berg, A.C.: Dssd: Deconvolutional single shot detector. arXiv:1701.06659 (2017)
Noh, H., Hong, S., Han, B.: Learning deconvolution network for semantic segmentation. In: ICCV. (2015)
Lin, G., Milan, A., Shen, C., Reid, I.: Refinenet: Multi-path refinement networks with identity mappings for high-resolution semantic segmentation. In: CVPR. (2017)
Pohlen, T., Hermans, A., Mathias, M., Leibe, B.: Full-resolution residual networks for semantic segmentation in street scenes. In: CVPR. (2017)
Peng, C., Zhang, X., Yu, G., Luo, G., Sun, J.: Large kernel matters–improve semantic segmentation by global convolutional network. In: CVPR. (2017)
Islam, M.A., Rochan, M., Bruce, N.D., Wang, Y.: Gated feedback refinement network for dense image labeling. In: CVPR. (2017)
Wojna, Z., Ferrari, V., Guadarrama, S., Silberman, N., Chen, L.C., Fathi, A., Uijlings, J.: The devil is in the decoder. In: BMVC. (2017)
Fu, J., Liu, J., Wang, Y., Lu, H.: Stacked deconvolutional network for semantic segmentation. arXiv:1708.04943 (2017)
Zhang, Z., Zhang, X., Peng, C., Cheng, D., Sun, J.: Exfuse: Enhancing feature fusion for semantic segmentation. arXiv:1804.03821 (2018)
Xie, S., Girshick, R., Dollr, P., Tu, Z., He, K.: Aggregated residual transformations for deep neural networks. In: CVPR. (2017)
Jin, J., Dundar, A., Culurciello, E.: Flattened convolutional neural networks for feedforward acceleration. arXiv:1412.5474 (2014)
Wang, M., Liu, B., Foroosh, H.: Design of efficient convolutional layers using single intra-channel convolution, topological subdivisioning and spatial ”bottleneck” structure. arXiv:1608.04337 (2016)
Zoph, B., Vasudevan, V., Shlens, J., Le, Q.V.: Learning transferable architectures for scalable image recognition. In: CVPR. (2018)
Holschneider, M., Kronland-Martinet, R., Morlet, J., Tchamitchian, P.: A real-time algorithm for signal analysis with the help of the wavelet transform. In: Wavelets: Time-Frequency Methods and Phase Space. (1989) 289–297
Giusti, A., Ciresan, D., Masci, J., Gambardella, L., Schmidhuber, J.: Fast image scanning with deep max-pooling convolutional neural networks. In: ICIP. (2013)
Papandreou, G., Kokkinos, I., Savalle, P.A.: Modeling local and global deformations in deep learning: Epitomic convolution, multiple instance learning, and sliding window detection. In: CVPR. (2015)
Abadi, M., Agarwal, A., et al.: Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv:1603.04467 (2016)
Hariharan, B., Arbel´aez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization. In: CVPR. (2015)
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: ImageNet Large Scale Visual Recognition Challenge. IJCV (2015)
Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: ICML. (2015)
Hariharan, B., Arbel´aez, P., Bourdev, L., Maji, S., Malik, J.: Semantic contours from inverse detectors. In: ICCV. (2011)
Wang, P., Chen, P., Yuan, Y., Liu, D., Huang, Z., Hou, X., Cottrell, G.: Understanding convolution for semantic segmentation. arXiv:1702.08502 (2017)
Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: ICCV. (2017)
Lin, T.Y., et al.: Microsoft COCO: Common objects in context. In: ECCV. (2014)
Hinton, G., Vinyals, O., Dean, J.: Distilling the knowledge in a neural network. In: NIPS. (2014)
Sun, C., Shrivastava, A., Singh, S., Gupta, A.: Revisiting unreasonable effectiveness of data in deep learning era. In: ICCV. (2017)
Li, X., Liu, Z., Luo, P., Loy, C.C., Tang, X.: Not all pixels are equal: Difficulty-aware semantic segmentation via deep layer cascade. In: CVPR. (2017)
Wu, Z., Shen, C., van den Hengel, A.: Wider or deeper: Revisiting the resnet model for visual recognition. arXiv:1611.10080 (2016)
Wang, G., Luo, P., Lin, L., Wang, X.: Learning object interactions and descriptions for semantic image segmentation. In: CVPR. (2017)
Luo, P., Wang, G., Lin, L., Wang, X.: Deep dual learning for semantic image segmentation. In: ICCV. (2017)
Bul`o, S.R., Porzi, L., Kontschieder, P.: In-place activated batchnorm for memory-optimized training of dnns. In: CVPR. (2018)

图像分割 - DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic ... (ECCV 2018)

DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation - 用于语义图像分割的空洞可分离卷积编解码器（ECCV 2018）

摘要

1. 引言

2. 相关工作

3. 方法

3.1 具有空洞卷积的编解码器

3.2 修改的对齐Xception

4. 实验评价

4.1 解码器设计选择

4.2 ResNet-101作为网络骨干

4.3 作为网络骨干的Xception

4.4 沿目标边界的改进

4.5 Cityscapes实验结果

5. 结论

References

猜你喜欢

图像 分割 - DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic ... (ECCV 2018)

DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation - 用于语义图像分割的空洞可分离卷积编解码器（ECCV 2018）

摘要

1. 引言

2. 相关工作

3. 方法

3.1 具有空洞卷积的编解码器

3.2 修改的对齐Xception

4. 实验评价

4.1 解码器设计选择

4.2 ResNet-101作为网络骨干

4.3 作为网络骨干的Xception

4.4 沿目标边界的改进

4.5 Cityscapes实验结果

5. 结论

References

猜你喜欢

图像分割 - DeepLabv3+: Encoder-Decoder with Atrous Separable Convolution for Semantic ... (ECCV 2018)