论文笔记:Fully Convolutional Networks for Semantic Segmentation

1 摘要

针对语义分割,本文提出一种叫“fully convolutional networks”的网络(下称FCN),该网络支持输入任意尺寸的图片并且输出一定尺寸的图片。在这个网络中定义了一种跳跃结构将网络深层的粗糙的特征图与网络浅层精细的特征图进行融合,达到了当时的最好效果。

2 创新点

2.1 以全卷积层代替全连接层

2.1.1 支持任意不同尺寸图片的输入

在以前的CNN网络结构中,大多数都是在最后面的几层使用全连接层,而一方面全连接层网络的神经元数量是一定的,另一方面必须限定固定分辨率图片的输出,那么就使得输入图片尺寸必须是固定的,因为这样才能保证特征数量的一致。如下图为全连接层。
在这里插入图片描述
但是本文将全连接层直接改成n个1x1的卷积核,这样使得无论输入的尺寸为多大,经过n个1x1卷积以后,特征数量就会变成n有关,而与图片的尺寸无关。而如果是全连接层的话,参数数量是与图片的尺寸有关的,因为全连接层需要将一张axbxn的特征图转成为(axbxn,1)的矩阵进行前向与反向传播,所以必须保证图片axb大小是固定的。

2.1.2 更利于端到端学习

可以观察文献中给出的图:
在这里插入图片描述
图中第一行最后的基层使用的是全连接层,经过全连接层实质上所代表的是RGB权重的信息,也就是像素之间的联系,可以得到每个特征像素的分布关系。而如果是引入1x1卷积核,则所代表的意义为多个特征的叠加,可以得到一个热度图直接显示出各个特征的权重,文章提到这样会更加有利于端到端的学习。

2.2 使用“反卷积”作为上采样

一般的语义分割网络的套路是:首先输入一张图片,经过卷积提取特征图,然后为了提高感受野,作用是获取图片中更多的显著特征信息之间的联系而减少一些冗余信息,通常会继续经过池化层使得特征图缩小,然后再继续卷积…池化层…,直至提取到一定的特征以后,由于语义分割输出的是分割以后的图像嘛,所以必须保证输出以后的图像至少在尺寸上能够对应于原图,因此就有了上采样(通俗的说就是将小图通过一些算法把图片的尺寸放大)。上采样的方法有很多,如:双线性插值法、上池化、“反卷积”等。本文中使用到的上采样方法为“反卷积”(但是大家更愿意称其为转置卷积),其原理就是滑动窗口卷积法的逆过程,具体可以参考以下这篇博客:
一文看懂反卷积

2.3 引入了跳跃结构

本文中作者引入跳跃结构的思路是:由于在进行池化操作的时候,越在后面层的特征图分辨率是越小的,它更能反映出显著的特征信息,也就是文章所说的粗糙的信息。而越前面层的特征图,由于经过池化层的次数少,所以其更能反映带有细节的特征信息。而如果是特征图太粗糙的话,在进行上采样把图片恢复成原来大小时可能会不够准确,于是作者就有了这个想法,将前面的某层的精确特征图与后面的粗糙特征图融合以后再进行上采样会不会能够达到更好的效果。
跳跃结构
在上图中,跟不同的层融合得到的效果不同,解释如下:
① FCN-32s代表的是:不采用跳跃结构,直接在conv6-7后面使用32倍的上采样得到32x32的输出。

② 而FCN-16s为:在conv6-7后得到的特征图进行2倍的上采样(为了使得与pool4以后的图的大小一致),直接上采样可能有一些细节无法恢复,所以需要与前面pool4得到特征图进行融合(在代码上是两个特征图直接相加),融合以后再使用16倍的上采样即可得到32x32的输出。

③ 而FCN-8s的原理也是同上,在conv6-7后得到的特征图进行4倍上采样,然后与pool4进行2倍上采样和pool3进行融合,最后进行8倍上采样得到32x32的输出。

3 效果

效果图
上图是FCN-32s、FCN-16s、FCN-8s的效果图,可见FCN-8s的表现更佳。
在这里插入图片描述
上图是FCN-8s与其他网络结构对比的效果图,总的来说会比当时的SDS表现更佳,但是上图中的第三行和第四行的表现效果不是很好,第三行不能分割出网格,第四行分割失败。

4 结论

效果跟最新的语义分割网络结构没得比,但是却是后面很多语义分割网络结构的基础。值得注意的是,与其说FCN是一种网络结构,FCN更像是一种方法,很多主流的卷积神经网络结构可以使用这种方法进行改进,如:文中进行改进的VGG16、AlexNet、GoogLeNet等,还有后面出现的ResNet50等,都可以使用FCN的方法,在这些网络结构的基础上加上跳跃结构、改成全卷积形式用于语义分割。

5 参考文献

(1)Fully Convolutional Networks for Semantic Segmentation
(2)深度学习笔记——全连接层
(3)FCN用卷积层代替FC层原因
(4)为什么CNN需要固定输入图像的尺寸(CNN图像尺寸输入限制问题)
(5)一文看懂反卷积

发布了24 篇原创文章 · 获赞 27 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/gyyu32g/article/details/104271054