【语义分割】FCN论文笔记

参考博客：https://blog.csdn.net/qq_36269513/article/details/80420363

论文全称：Fully Convolutional Networks for Semantic Segmentation

亮点:

1、将全连接层(fc)修改为卷积层，成为全卷积(fully conv)网络。

2、适应任意尺寸输入，输出等同输入尺寸大小，对每个像素进行分类

3、采用上采样方法，即反卷积(deconv)层，增大特征图尺寸。能够输出精细的结果。

4、结合不同层结果的skip结构。同时确保鲁棒性和精确性。

模型过程：

1、FCN将传统CNN中的全连接层转化成一个个的卷积层。如下图所示，在传统的CNN结构中，前5层是卷积层，第6层和第7 层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率。FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为（4096,1,1）、（4096,1,1）、（1000,1,1）。所有的层都是卷积层，故称为全卷积网络。

2、对第5层的输出（32倍放大）反卷积到原图大小，得到的结果还是不够精确，还是有细节内容丢失了。于是作者采用skiplayer的方法，将第4层的输出和第3层的输出也依次反卷积，分别需要16倍和8倍上采样，结果就精细一些了。下图是这个卷积和反卷积上采样的过程：

上帝视角：

在浅层处减小upsampling的步长，得到的finelayer 和高层得到的coarselayer做融合，然后再upsampling得到输出。这种做法兼顾local和global信息，即文中说的combiningwhat and where，取得了不错的效果提升。FCN-32s为59.4，FCN-16s提升到了62.4，FCN-8s提升到62.7。可以看出效果还是很明显的。

跳级结构（skip）

看图二，对原图进行卷积conv1、pool1后图像缩小为1/2；对图像进行第二次卷积conv2、pool2后图像缩小为1/4；对图像进行第三次卷积conv3、pool3后图像缩小为1/8，此时保留pool3的featuremap；对图像进行第四次卷积conv4、pool4后图像缩小为1/16，此时保留pool4的featuremap；对图像进行第五次卷积conv5、pool5后图像缩小为1/32，然后把原来CNN操作过程中的全连接编程卷积操作的conv6、conv7，图像的featuremap的大小依然为原图的1/32,此时图像不再叫featuremap而是叫heatmap。

其实直接使用前两种结构就已经可以得到结果了，这个上采样是通过反卷积（deconvolution）实现的，对第五层的输出（32倍放大）反卷积到原图大小。但是得到的结果还上不不够精确，一些细节无法恢复。于是将第四层的输出和第三层的输出也依次反卷积，分别需要16倍和8倍上采样，结果过也更精细一些了。这种做法的好处是兼顾了local和global信息。

缺点

在这里我们要注意的是FCN的缺点：

是得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。
是对各个像素进行分类，没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。