SegNet:编解码器结构的语义分割深度卷积网络

论文地址:https://arxiv.org/pdf/1511.00561

目录

1、摘要

2、网络结构及其细节

3、总结


1、摘要

 提出了一种新颖使用的用于像素级语义分割的深度全卷积神经网络结构,称之为SegNet。这个核心可训练的分割引擎由一个编码器、对应解码器和一个像素级分类层组成。编码器网络的结构在拓扑结构上与的13个卷积层的VGG16网络相同。解码器网络的作用是将低分辨率编码器特征映射到与输入分辨率大小的特征,以便进行像素级分类。SegNet的新颖之处在于解码器对其低分辨率输入特征图进行上采样的方式。具体来说,解码器使用相应编码器的max-pooling步骤计算的pooling索引来执行非线性上采样,这就避免了上采样学习的成本。如此上采样后的map是稀疏的,但是使用可训练的卷积核进行卷积即可产生密集的feature map。我们将提出的架构与广泛采用的FCN,以及著名的DeepLab-LargeFOV, DeconvNet架构进行比较,结果表明,在达到较好的分割性能的同时,SegNet具有内存占用率和准确率上的平衡。SegNet的主要应用是场景理解,因此,它被设计成在推理过程中对内存和计算时间方面比较友好。与其他结构相比,它的可训练参数数量也明显较少,并且可以使用随机梯度下降进行端到端的训练。我们还对道路场景和SUN RGB-D室内场景分割任务进行了SegNet和其他架构的受控基准测试。这些定量评估表明,与其他架构相比,SegNet提供了良好性能,同时在推理时间和有效的内存推理方面具有竞争性。

2、网络结构及其细节

SegNet首先是一个编解码结构的网络,然后也是全卷积的。其属于FCN的扩展:对backbone的每个下采样层都进行了连接。反观FCN,最多只用到了8倍的下采样。SegNet通过连接Encoder(也即backbone)中的每个下采样层和Decoder中的每个上采样层,构成了一个对称的Encoder-Decoder结构,如图所示:

 SegNet的创新的关键之处,在于它的上采样部分,也即上图中的红色部分。上采样仅存在于Decoder中,其与Encoder的maxpooling层一一对应。上采样的过程是不需要学习的,只需利用Encoder的下采样(VGG中的max-pooling)时得到的池化索引(Pooling index)。之所以摘要中说其上采样是novelty,就是由于这个原因。

具体地,SegNet中的上采样和FCN是有着本质区别的:SegNet上采样只需利用下采样中的池化索引,而FCN是基于学习进行上采样的。具体区别如图:

扫描二维码关注公众号,回复: 12566371 查看本文章

从上图可以看出,SegNet上采样过程(左图)直接把每个元素的值填入对应max-pooling索引所指向的位置,其他位置则填充为0;而FCN需要对输入的feature map进行反卷积,然后与其他feature map相加(add)。需要知道的是,FCN的反卷积和普通卷积一样是需要学习的,其卷积核(filter)参数需要通过梯度下降一点点学习得到。关于反卷积和普通卷积的区别可以参考我的这篇博客

这样一来,有个什么好处呢?既然SegNet的上采样不需要学习,那么就降低了学习成本,也即参数量方面会显著降低。但是需要注意,虽然上采样过程不需要学习,但通过max-pooling索引得到上采样feature map是稀疏的,那些填充了0的位置怎么办?作者的解决方案是在其后跟一个卷积步骤,使用卷积核对其该稀疏的feature map进行卷积,从而使其由稀疏变得稠密。

这么一操作,还是避免不了参数学习啊!但总体而言,后面的这个卷积操作需要学习的力度就不需要那么大了,总体上还是降低了学习难度。为什么?就是其上采样利用了Encoder的max-Pooling的索引这些先验知识,从而指导了后续的卷积学习。一来一回之间,模型的效果没有多么明显的增长,但是参数量变少了,这对实时推理是大有好处的。因此,SegNet的论文就一直在强调:SegNet能够在精度差不多的情况下,占用内存更少、推理时间也有优势。至于推理时间的优势,其实并不明显,其主要优势还是占用内存少,因为推理过程中,关于上采样只需存储Encoder的max-Pooling索引,可以从下图看出其对比:

3、总结

SegNet主要优势是占用内存小,所以更适合移动设备上的推理,主要用于场景理解方面,如自动驾驶领域。内存的高效性,主要归功于其上采样只存储max-pooling索引。内存高效的同时,性能还说得过去,推理时间还能相对满意。个人认为该作较为有意思的地方就在于利用了Encoder中max-pooling的索引来指导后续的上采样过程,从而降低了上采样学习成本。

猜你喜欢

转载自blog.csdn.net/oYeZhou/article/details/112303317
今日推荐