DeepLab-v3:Rethinking Atrous Convolution for Semantic Image Segmentation

Rethinking Atrous Convolution for Semantic Image Segmentation

目前的问题:
当前DCNN在语义分割的两个挑战:
1由连续池化操作或卷积所导致的特征分辨率降低,这使得DCNNs能够在不断增加的抽象特征表示中学习。然而,这种局部图像变换的不变性可能会妨碍密集的预测任务,因为在这些任务中需要详细的空间信息。
2另一个困难来自存在多个尺度的物体

相关工作:
1.为解决问题1,DppeLab-v2提出的atrous convolution(洞卷积),已被证明是有效的语义图像分割,洞卷积可以在不需要学习额外参数的情况下,控制特征响应在DCNNs中计算的分辨率。如下图,具体讲解见DeepLab-v2.
在这里插入图片描述
2.为解决问题2,目前常用的方法为以下4种:
在这里插入图片描述
本文重新探讨了洞卷积的应用,这使能够在级联模块和空间金字塔池的框架内有效地扩大感受野,以纳入多尺度上下文。尤其是,本文提出的模块由具有不同速率和批量归一化层的洞卷积组成,并尝试以级联或并行方式布置模块(特别是ASPP)。我们讨论了在以极高的速率应用3×3洞卷积时遇到的一个重要的实际问题,由于图像边界效应,该卷积无法捕获远程信息,有效地简单地退化为1×1卷积,并将图像合并到ASPP模块中。
方法:
1.Atrous Convolution for Dense Feature Extraction(一种用于稠密特征提取的洞卷积算法)
见DeepLab-v2
2.Going Deeper with Atrous Convolution(对洞卷积进一步深入)
在这里插入图片描述
在以Res net为backbone中,在上图a可以看出,consecutive striding对于语义分割是不利的,因为破坏了细节信息,b中,当output stride= 16时,在Block 3之后采用r> 1的洞卷积。同时,Multi-grid Method(多重网格法)定义了b中rate的大小,Block4-Block7中定义了Multi-Grid = (r1, r2, r3)为单位速率和相应速率的乘积,当output stride = 16和Multi-Grid =(1,2,4)时,三个convolutions在block4中的rate分别为= 2·(1,2,4)=(2,4,8)
3.Atrous Spatial Pyramid Pooling(ASPP)
本文改进后的并行级联ASPP框架:
在这里插入图片描述
成果:
在PASCAL VOC 2012数据集中的测试结果(均采用going deeper with atrous convolution):
下表改变了output-stride、backbone、block、multi-grid。以m-Iou为评价标准进行测试。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下表中,MG: Multi-grid. OS: output stride. MS: Multi-scale inputs during test(多尺度输入). Flip: Adding left-right flipped inputs(添加左右翻转的输入).COCO: Model pretrained on MS-COCO(在MS-COCO数据集预训练)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下表展示了不同方法下的m-Iou数值,特别注意的是DeepLab-v3中移去了v2中的CRF,反而实验效果更好。
在这里插入图片描述
下图为应用本模型的实验成果,最后一行为失败模型:
在这里插入图片描述

发布了57 篇原创文章 · 获赞 8 · 访问量 3236

猜你喜欢

转载自blog.csdn.net/qq_41967539/article/details/103893761