DRN:Dilated Residual Networks(论文解读十四)

Title:Dilated Residual Networks

From:CVPR2017

Note data:2019/06/12
Abstract:提出一种有利于分类任务的扩张残差网络DRN。
Code :pytorch


目录

DRN论文解读

1 Abstra

2 Introduction

3 Method

Degridding

添加图层

移除残差连接

5 Experiment

6 Conclusion


DRN论文解读

1 Abstra

论文提出一种新的网络模型:DRN

网络结构:在残差网络的基础上通过替换内部下采样层的子集来增加网络输出的分辨率。

创新:解决了由卷积,池化操作导致的图像分辨率下降的问题

动机:解决卷积神经网络在卷积,池化过程中不断减小的分辨率

论文提出扩张卷积可以增加感受野,用于替换卷积网络中的下采样层,维持图像原有的空间分辨率的同时,保持后续神经元的感受野的分辨率,并使得模型转移到需要详细场景理解的下游应用程序。扩展卷积不仅扩大输出特征图的分辨率还不会减少单个神经元的感受野。证明DRN在图像分类任务中由于未使用扩张的模型,且不增加模型的深度与复杂性!在ImageNet中表现优于其他的分类模型!


2 Introduction

卷积神经网络使用池化和下采样获取更抽象的特征,但这伴随着是feature map空间分辨率的下降,这会丢失很多敏感细节,不利于涉及密集预测的图像场景解析任务。论文认为池化下采样不是必须的,在残差网络的结构上,使用扩张卷积替换模型内部的下采样层来提高输出的准确率。

在ImageNet上DRN的输出分辨率为28×28 (原Resnet输出7×7 ,空间分辨率提高了4倍,替换了2个下采样),论文指出在此基础上使用平均池化效果不错。使用扩张卷积会带来"gridding"问题,论文提出了一种用于消除影响的解决方案,这进一步提高了DRN的准确率。同时验证了DRN在其他任务:例如语义分割任务上表现也很不错。


3 Method

在卷积神经网络中使用下采样会降低feature的空间分辨率,这会丢失许多细节,从而影响模型对小型目标乃至目标之间关系的识别。

提高网络的家高层的分辨率的一些方法是去除下采样,这样确实会增加下游的分辨率,但下采样带来的一些好处也随之消失(去除下采样相应的减少了后续层中的感受野)。因此消除跨步使得输出层的分辨率增加也会降低感受野每个输出单元的字段为4倍,这导致严重减少了可以形成单元产生的预测的上下文量。论文采用扩张卷积来增加高层感受野的同时补偿通过去除下采样引起的感受野的减小,一举两得!

论文以Resnet为基础,提出了一个改进方法,在resnet的top layers移除下采样层,这可以保持feature map的空间分辨率,但后续的卷积层接收野分辨率下降了,这不利于模型聚合上下文信息。针对这一问题,论文使用扩张卷积替换下采样,在后续层合理使用扩张卷积,在保持feature map的空间分辨率同时维持后续层接收野的分辨率。

具体来说,对于Resnet可分为5组卷积,DRN改进了后两组卷积(记为G4 和G5 ),这两组卷积开始的卷积层都是下采样,DRN做了以下改进:

  • 去除了开始的下采样,这保持了feature的分辨率,注意到无论是G4 和G5 的第一层卷积接收野是不受影响的,但是G4的后续层接收野下降了2倍,G5的后续层接收野下降了4倍
  • 对G4  的后续层使用2倍扩张率的扩张卷积,G5 的后续层使用4倍扩张率的扩张卷积
  • 后续就是接平均池化,预测输出

                                             

转换后的DRN与原始ResNet具有相同数量的层和参数。关键的区别在于原始ResNet在每个维度上对输入图像进行下采样32倍(面积减少一千倍),而DRN将输入下采样8倍。当输入分辨率为 在224×224中,原始ResNet中G 5的输出分辨率为7×7,这不足以使输入的空间结构可辨别。 DRN中G 5的输出为28×28。因此全局平均合并值增加了24倍的值,这可以帮助分类器识别覆盖输入图像中较少数量像素的对象并在其预测中考虑这些对象。

作者在论文中提到为什么不在所有层使用扩张卷积,保证完整的分辨率?主要是考虑到当前的算力水平,全分辨率固然有利于辨别场景结构,但是于此同时需要更多的内存,这是我们不愿意看到的。

Degridding

扩张卷积的使用可能导致网格伪影。大致可以总结当使用的扩张率增加,采样点之间相隔较远,局部信息丢失,产生的预测图出现网格效应。例如下图C所示:

当特征映射具有比扩张卷积的采样率更高的频率内容时,发生网格伪像。图4显示了一个教学示例

                        

在本节中,用于从DRN产生的输出激活图中去除网格伪像。该方案如图5所示。如第2节所述构建的DRN称为DRN-A,如图5(a)所示。本节中描述的结构的中间阶段称为DRN-B,并在图5(b)中示出。最终结构称为DRN-C,如图5(c)所示。删除最大池化层。如图5(a)所示,DRN-A从ResNet架构继承了最大池化操作,初始7×7卷积。

如图5 (a) DRN-A-18所示。 继承了原始Resnet在初始的7×7 7×77×7卷积后接的最大池化操作,论文发现该池化层有高频高幅的激活,如图6 (b)所示,这样的高频传播到网络后面,会加剧gridding影响。

故图5 (b)使用卷积滤波器代替最大池化,图6 C显示了转换后的效果。

                                

添加图层

如图5 (b) DRN-B-26所示。考虑到扩张卷积产生的"gridding"影响,论文在网络的后端增加两个扩张卷积block。

移除残差连接

在图5 (b) DRN-B-26中,在网络的后端增加了两个扩张率的卷积block,但是因为增加的模块存在残差连接(残值就能直通,移除了就没办法不通过卷积了),为了完全了实现抗混叠,论文移除了残差连接,图5 C DRN-C-26所示。这样的结构虽然在深度和容量上超出了开始的DRN-A,但后续的实验证明这样结构对精度有显著的提升,与更深的DRN-A-34有类似的精度,比DRN-A-50在语义分割任务上有更好的精度。

DRN-C的特征激活图如图7所示:


5 Experiment

实验细节:

项目 属性
数据集  ImageNet 2012
优化器 SGD
权重衰减

mentum 0.9 weight decay 10e-4

学习率 0.1(30 /epochs 减少10倍)
迭代次数 120 epoch

分类任务:

 论文针对数据裁剪方式设计了两种评估手段:1-crop和10-crop:

1-crop:使用图片中间的224×224 区域
10-crop:使用图片中间、四个角和翻转后的,共10中crop,预测结果取平均
多个实验的对比结果如下:                    

                            

目标检测

在ImageNet2012验证集上,评估模型的弱监督目标定位能力,如果预测结果和Ground Truth的IoU超过0.5,则认为预测准确,实验结果如下:

                                  

语义分割:


6 Conclusion

论文还是有很多可取的地方,扩张卷积的应用也确实在其他的工作中起到了很大的作用。与此同时,实验在提出扩张卷积时出现的其他问题也给了出了合理的解决方法,并进行实验验证,说明其合理性!

发布了106 篇原创文章 · 获赞 158 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_41997920/article/details/91490628