FCN论文笔记Fully Convolutional Networks for Semantic Segmentation

一、论文相关信息

时间：2014年
题目：Fully Convolutional Networks for Semantic Segmentation
paper地址：https://arxiv.org/abs/1411.4038
code: https://github.com/shelhamer/fcn.berkeleyvision.org
作者：Jonathan Long等

二、论文详情

背景与介绍

CNN强有力的模型结构能够学习到层次性的特征。
其中浅层的卷积层具有较小的感受野，能学习到较强的局部信息。
深层的卷积层有较大的感受野，能学习到丰富的语义信息，更加抽象，但是对一些位置信息等不敏感。

传统CNN经过了一系列卷积层和池化层之后其feature map尺寸小了很多，最后的输出是高度抽象的信息，这样的抽象特征用于图像分类时能够取得很好的性能，因为图像分类的是photo-wise 的，但是当我们想要实现位置更加精确的语义分割（pixel-wise）时，仅靠抽象的语义特征就无法实现了。
为此，本文作者提出构建一个全卷积网络，能够实现输入任意尺寸的图片并输出相应大小的输出，并且能够端到端，点到点的训练，高效地inference。该网络将深层卷积层中语义信息与浅层卷积层中的空间信息进行融合得到一个准确且细节突出的分割结果。

FCN架构

在这里插入图片描述
其中用到的技术：

1.卷积化：

分类所使用的网络通常会在最后连接全连接层，它会将原来二维的矩阵(图片)压缩成一维的，从而丢失了空间信息，最后训练输出一个标量，这就是我们的分类标签。

而图像语义分割的输出则需要是个分割图，且不论尺寸大小，但是至少是二维的。所以，我们丢弃全连接层，换上卷积层，而这就是所谓的卷积化了。
在这里插入图片描述

如上图所示，第一个是传统分类网络中，在卷积最后加上全连接，最后输出一个一维向量，向量中每个值对应每个类别该类。下图则是卷积化之后，去掉全连接，改用卷积层，保持了原有空间信息，并且这样解决了全连接对输入尺寸固定的要求，使得网络输出尺寸可以任意。

2.上采样（upsampling）

upsampling可以分两种：
一、resize操作，即传统图像处理中的线性插值那样。
二、反卷积式操作，也称作反卷积（Deconvolution）或转置卷积(conv_transpose)
其中第二种方法就是该FCN中使用的，如上图中产生热力图的那个方式。

转置卷积相对于卷积在神经网络结构的正向和反向传播中做相反的运算。
在这里插入图片描述

更多卷积和反卷积示意图
虽然转置卷积层和卷积层一样，也是可以train参数的，但是实际实验过程中，作者发现，让转置卷积层可学习，并没有带来performance的提升，所以实验中的转置卷积层的lr全部被置零了

3.跳跃结构(Skip Architecture)

在这里插入图片描述
如图所示，输出最终会通过上采样变为输入一样的维度，得到几个输出。

扫描二维码关注公众号，回复： 12822283 查看本文章

对于FCN-32s，直接对pool5 feature进行32倍上采样获得32x upsampled feature，再对32x upsampled feature每个点做softmax prediction获得32x upsampled feature prediction（即分割图）。
对于FCN-16s，首先对pool5 feature进行2倍上采样获得2x upsampled feature，再把pool4 feature和2x upsampled feature逐点相加，然后对相加的feature进行16倍上采样，并softmax prediction，获得16x upsampled feature prediction。
对于FCN-8s，首先进行pool4+2x upsampled feature逐点相加，然后又进行pool3+2x upsampled逐点相加，即进行更多次特征融合。具体过程与16s类似，不再赘述。
以上不同步长上采样的输出结果如下：

可见，FCN-8s效果最好。

语义分割的评价指标：

intersection over union（IU）是区域交集。令n _ij 为类i被预测属于第j类的像素数，其中存在n _cl 个不同的类，在这里插入图片描述
表示类i的总个数。然后我们得到以下的计算方式：

像素准确率即所有的像素中正确分类的。
平均准确率即像素准确率除类的数量。
平均IU：IU指的是某类的像素中真正为该类像素占的比例，平均IU即所有类的IU取平均值。
频率权重IU：就是将每个类的IU乘以一个权重相加，这个权重是该类像素占所有像素的比例。

总结：

语义分割的重要思想：

下采样+上采样：Convlution + Deconvlution／Resize
多尺度特征融合：特征逐点相加／特征channel维度拼接
获得像素级别的segement map：对每一个像素点进行判断类别

特征融合两种方法：

融合时在通道上相加，空间维度要相同。如DenseNet的紧密连接方式。
融合时每个点相加，通道数要相同。如本文中的融合方式，以及ResNet的shortcut。

参考文章：

https://zhuanlan.zhihu.com/p/22976342
https://zhuanlan.zhihu.com/p/31428783