目标分割(九)DeepLab v3讲解

1
原文:RethinkingAtrousConvolutionforSemanticImageSegmentation
代码:Tensorflow
          其中DeepLab 是由Google团队提出的,至今有四个版本(v1-v4)


ABSTRACT

  1. 进一步探讨 空洞卷积 ,因为在语义分割任务里,它可以调整滤波器视野、控制深度卷积神经网络计算的特征响应的分辨率
  2. 为了解决多尺度的目标分割问题,我们设计了空洞卷积级联或并行方式,对不同尺度环境来使用不同采样率 (rate) 空洞卷积
  3. 增强 ASPP模块,该模块能在多个尺度上获取卷积特征,进一步提升性能。

 
※论文核心思想

  1. 重新讨论空洞卷积使用;
  2. 改进ASPP模块;

1. INTRODUCTION

对于语义分割任务,在应用深度卷积神经网络DCNNs中的有两个挑战

  1. 连续池化和卷积等下采样操作,导致特征分辨率下降,高层特征具有局部图像变换的内在不变性,会妨碍密集的定位预测,解决这一问题的办法则是使用 空洞卷积
     
  2. 多尺度object的存在。现有多种处理多尺度目标的方法,我们主要考虑4种,如下图:
    2
    a. Image Pyramid:将输入图片放缩成不同尺度,分别输入到DCNN上,将预测结果融合得到最终输出;
    b. Encoder-Decoder::利用Encoder阶段的多尺度特征,从Decoder阶段恢复空间分辨率(代表工作有FCN、SegNet、PSPNet等工作);
    c. Deeper w. Atrous Convolution:将额外的模块级联在原始网络顶端,例如DenseCRF,捕获远程信息;
    d. Spatial Pyramid Pooling:空间金字塔池化按照不同采样率和多种视野的卷积核,来实现多尺度捕捉对象。

       DeepLab v3主要贡献:

  1. 重新讨论空洞卷积的使用,让我们在级联模块和空间金字塔池化的框架下,能够获取更大的感受野从而获取多尺度信息。
  2. 改进ASPP模块:由不同采样率的空洞卷积和BN层组成,我们尝试以级联或并行的方式布局模块。
  3. 讨论了一个重要问题:当使用大采样率的3×3的空洞卷积,因为图像边界响应无法捕捉远程信息,会退化为1×1的卷积,,我们建议将图像级特征融合到ASPP模块中。

2. Methods

2.1. Atrous Convolution for Dense Feature Extraction

       这部分讲的就是空洞卷积原理,这个在 DeepLab v1DeepLab v2 详细讲述过,这里就不重复。

2.2. Going Deeper with Atrous Convolution

3
       注意:output stride这个值是输入图像的空间分辨率和输出特征图的空间分辨率的比值.。

  • 如上图(a)所示,整个图像的特征归结到最后的小特征图上,不利于语义分割。
  • 上图(b),可使用不同采样率的空洞卷积保持输出步幅的为output stride = 16,这样不增加参数量和计算量同时有效的缩小了步幅。
                         4
           上表可以看出output stride越大,得到的结果越差,因为连续的下采样会降低特征映射的分辨率,细节信息被抽取,这只会语义分割是有害的,结果最好的output stride = 8 却需要占用较多的存储空间。

2.3. Atrous Spatial Pyramid Pooling

       在DeepLab v2中提出的 ASPP模块 中,它在特征顶部映射图并行使用了四种不同采样率的空洞卷积。这表明以不同尺度采样是有效的,而在DeepLab v3中则是还向ASPP中添加了BN层。不同采样率的空洞卷积可以有效的捕获多尺度信息,但是,我们发现随着采样率的增加,滤波器的有效权重(权重有效的应用在特征区域,而不是填充0)逐渐变小。如下图所示:
                                          5
       采样率发生变化时,在65×65特征图上使用3×3过滤器对有效权重进行归一化计数。

       Q1:当采样率较小时,所有9个滤波权值都应用到大部分特征图有效部分,当采样率逐渐增大时,3×3的滤波权值( 9 vaild weights )退化为1×1的滤波权值( 1 vaild weights ),只有中心点权重有效
 
       A1: 为了克服这个问题,我们考虑使用图片级特征。具体来说,我们在模型最后的特征映射上应用全局平均池化,将结果经过 1×1×256 的卷积,再双线性上采样得到目标的空间维度。最终,我们改进的ASPP地方包括:

  • 一个1×1和三个3×3采样率为rates=(6,12,18)的空洞卷积,滤波器数量为256以及BN层。且output stride = 16,如下图(a);
  • 图像级特征,即对特征做全局平均池化,经过卷积,最后融合。如下图(b)。

6
注意当output stride = 8时,加倍了采样率。所有的特征通过1×1级联到一起,生成最终的scores。


Reference

  1. Semantic Segmentation – (DeepLabv3)Rethinking Atrous Convolution for Semantic Image Segmentation论文解
发布了36 篇原创文章 · 获赞 5 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_40520596/article/details/104608922