FCN:Fully convolutional networks for semantic segmentation

一、语义分割简介

1.1 什么是语义分割?

在这里插入图片描述
语义分割:让机器实现对图像进行自动分割并识别图像中的内容

如上图中,给出一张图片,机器能识别图片中的物体并分割出结果图,即把不同的物体从图像中分割出来

1.2 研究意义

在这里插入图片描述
当前应用:

  • 地理信息系统
  • 无人车驾驶
  • 医疗影像分析
  • 机器人等领域

与图像分类或目标检测相比,语义分剖使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等许多领域都是非常重要的。

1.3 研究现状

在这里插入图片描述

1.4 实现流程

训练:
根据batch size大小,将数据集中的训练样本和标签读入卷积神经网络。根据实际需要,应先对训练图片及标签进行预处理,如裁剪、数据增强等。这有利于深层网络的的训练,加速收敛过程,同时也避免过拟合问题并增强了模型的泛化能力。

验证:
训练一个epoch结束后,将数据集中的验证样本和标签读入卷积神经网络,并载入训练权重。根据编写好的语义分割指标进行验证,得到当前训练过程中的指标分数,保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。

测试:
所有训练结束后,将数据集中的测试样本和标签读入卷积神经网络,并将保存的最好权重值载入模型,进行测试。测试结果分为两种,一种是根据常用指标分数衡量网络性能,另一种是将网络的预测结果以图片的形式保存下来,直观感受分割的精确程度。

1.5 常用数据集

在这里插入图片描述

二、论文内容

2.1 摘要

  1. 搭建一个全卷积网络,输入任意尺寸的图像,经过有效推理和学习得到相应尺寸的输出。
  2. 将当前分类网络改编成全卷积网络,如AlexNet, VGGNet以及 GoogleNet.
  3. 在PASCAL VOC, NYUDv2和SIFT Flow数据集上得到了state-of-the-art的结果。

2.2 引言

  1. 卷积网络推动了计算机视觉任务的发展,利用卷积网络对每一个像素进行分类的过程中,早前的方法会将每个像素标记为封闭对象或区域中的某个类别,这一做法存在缺点。
  2. 实验表明,端到端训练的FCN网络在语义分割任务中超过了现有技术水平。这是第一个在像素级别且在监督式预训练下完成的网络模型。
  3. 语义分割面临着语义信息和位置信息之间固有的紧张关系,后期经验表明,全局信息和局部信息往往不能同时得到,但两者的重要程度却是相同的。

2.3 相关工作

  1. 重新设计和微调现有的分类模型来指导语义分割的密集预测内容。
  2. 虽然近期已经有研究团队将卷积网络应用到密集预测任务中,但这些方法都存在一些不足,如感知范围有限、需要传统方法进行后处理等。
  3. 与现有网络不同, FCN使用图像分类作为监督式预训练来调整和扩展深度分类结构,并通过全卷积进行微调,目的是从整个输入图像和标签中简单高效地学习特征。
  4. FCN将各个层的特征融合在一起,旨在将局部特征与全局特征相结合,达到让网络自发微调的效导

2.4 模型结构

2.4.1 模型对比

经典模型结构:
在这里插入图片描述
以VGG为例的CNN网络,最后会用三个全连接层产生三个一维向量。最后向量中的1000个元素所表达的信息是: 这张原始输入图片中的物体可能是1000个分类中,某物体的概率。

由此可见, CNN的输入是一张图片,而输出是一个概率值.

CNN网络的缺点在于,网络中的后三层都是一维向量,不再使用卷积计算,因此会丢失大量二维信息。

本文模型结构:
在这里插入图片描述
与CNN网络不同, FCN达到的目的是,输入一张图像,输出也是一张图像,学习像素到像素的映射。

FCN网络中,将CNN网络的后三层全部转化为1x1的卷积核所对应等同向量长度的多通道卷积层。

整个网络模型全部都由卷积层组成,没有全连接层产生的向量。
简单来说, CNN是图像级的识别,也就是从图像到结果。而FCN是像素级的识别,标注出输入图像上的每一个像素最可能属于哪一类别。

2.4.2 模型详解

在这里插入图片描述
FCN网络模型中,每一层都包含了卷积+池化,也就是常说的下采样,这样得到的结果是图像的像素信息变小。

为了达到端到端训练的目的,就必须对缩小后的图像进行还原,即上采样。

本文提出的反卷积方法,可以对任一卷积层做反卷积处理,得到放大后的图像。

在这里插入图片描述
本文没有沿用以往的插值上采样(Interpolation) ,而是提出了新的上采样方法,即反卷积 (Deconvolution) 。

反卷积可以理解为卷积操作的逆运算, 反卷积并不能复原因卷积操作造成的值的损失,它仅仅是将卷积过程中的步骤反向变换一次,因此它还可以被称为转置卷积。

在这里插入图片描述
在较深卷积层使用反卷积进行还原时会丢失很多细节特征,于是在反卷积步骤中,会考虑采用一部分较浅层的信息进行辅助叠加,更好的优化分割结果精度。

其主要思路是将不同池化层的结果进行上采样, 然后结合这些结果来优化输出。

fcn-32s 就是直接将最后的结果通过转置卷积扩大 32 倍进行输出,而 fcn-16s 就是联合前面一次的结果进行 16 倍的输出,fcn-8s 就是联合前面两次的结果进行 8 倍的输出

在这里插入图片描述
上述提到的辅助叠加,实际上就是Resnet中所提到的跳跃连接结构,所以,本文中也就是通过加入跳跃连接结构来优化最终结果

在这里插入图片描述

此外,论文中对比了不同尺寸的特征图利用反卷积还原后的效果,在16倍和8倍还原时能够看到更好的细节,但32倍还原结果很粗糙。

这就涉及一个概念,即感受域(Receptive Field) .较浅层卷积层的感受域较小,但学习感知细节部分的能力较强;较深卷积层的感受域较大,适合学习较为整体的、相对宏观的特征。

2.5 实验和结果

2.5.1 实验常用指标

假设: 共有k+1个类, p i j p_{ij} 表示本属于类 i i 但被预测为类 j j 的像素数量。即, p i i p_{ii} 表示真正的数量, 而 p i j p_{ij} p j i p_{ji} 则分别被解释为假正或假负。

Pixel Accuracy (PA像素精度) : 标记正确的像素占总像素的比例。

  • P A = i = 0 k p i i i = 0 k j = 0 k p i j PA=\frac{\sum \limits ^k _{i=0}p_{ii}}{\sum \limits ^k _{i=0}\sum \limits ^k _{j=0}p_{ij}}

Mean Pixel Accuracy (MPA均像素精度) :计算每个类内被正确分类像素数的比例,再求所有类的平均。

  • M P A = 1 k + 1 i = 0 k p i i j = 0 k p i j MPA=\frac{1}{k+1}\sum \limits ^k _{i=0}\frac{p_{ii}}{\sum \limits ^k _{j=0}p_{ij}}

Mean Intersection over Union (MIoU均交并比) :计算真实值和预测值的交集和并集

  • I o U = A p r e d A t r u e A p r e d A t r u e ,     M I o U = 1 k + 1 i = 0 k p i i j = 0 k p i j + j = 0 k p j i p i i IoU=\frac{A_{pred}\cap A_{true}}{A_{pred}\cup A_{true}},~~~MIoU=\frac{1}{k+1}\sum \limits ^k _{i=0}\frac{p_{ii}}{\sum \limits ^k _{j=0}p_{ij}+\sum \limits ^k _{j=0}p_{ji}-p_{ii}}
    在这里插入图片描述

红色圆代表真实值,黄色圆代表预测值。橙色部分表示红色圆与黄色圆的交集,即真正(预测为1,真实值为1) ,红色部分表示假负(预测为0,真实为1) ,黄色表示假正(预测为1,真实为0) ,两个圆之外的白色区域表示真负(预测为0,真实值为0) 。

MPA计算色与 (t色与红色)的比例

MoU计算的是计算A与B的交集(橙色部分)与A与B的并集(红色+橙色+黄色)之间的比例,在理想状态下A与B重合,两者比例为1.

2.5.2 实验分析

参数设置:

  • GPU: NVIDIA Tesla K40c
  • 优化器: SGD
  • 学习率: 10-4
  • batch size: 20

在这里插入图片描述
说明:上表中的mean IU就是上述的MIoU指标

从上表可以看到,FCN的MIoU值要比R-CNN和SDS高,此外耗费的时间要短的多

在这里插入图片描述
从上图可以直观的感受到,FCN的分割效果比SDS要好

三、论文总结

3.1 解决的问题

问题:

  • CNN网络的输出结果为一个特定的概率值
  • CNN网络使用全连接层会丢失图像的二维信息
  • 上采样会丢失大量细节信息

解决:

  • 利用端到端的训练模式,将输出转化为图片。
  • 提出FCN网络,用卷积层替代全连接层。
  • 通过跳跃连接,将浅层特征与深层特征相融合。

3.2 主要创新点

  • 提出一种新的全卷积网络
    • 将网络输出从概率值上升为预测图
    • 利用反卷积更好的恢复特征图尺寸
  • 适应任意尺寸的输入,均可得到同尺寸的输出预测图
  • FCN成为了语义分割领域中里程碑式的网络结构
发布了105 篇原创文章 · 获赞 9 · 访问量 7793

猜你喜欢

转载自blog.csdn.net/qq_36825778/article/details/104246106