FCN:语义分割领域全卷积深度学习开山之作

论文地址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

深度学习语义分割开山之作,首次将有监督的预训练特征表示用于端到端语义分割,在分类网络的基础上,去掉全连接层,替换为反卷积上采样,得到与原图大小一致的上采样feature map,从而实现像素级的预测。

包括三个结构:FCN32s/FCN16s/FCN8s,从前往后,分割效果越来越精细。

目录

1、摘要

2、网络结构

3、实验结果

4、结论



1、摘要

卷积网络是一种功能强大的视觉模型,可以产生层次化的特征。我们发现,通过卷积网络本身进行端到端训练、像素到像素的训练,在语义分割方面超过了传统的SOTA分割方法。我们的关键见解是建立“全卷积”网络,接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并细化了卷积网络的空间,解释了它们在空间密集预测任务上的应用,并与之前的模型建立了联系。我们改进了当代的分类网络,如AlexNet、VGG、GoogLeNet,使之变为全卷积,通过微调将这些模型所学到的表示迁移到分割任务上。我们定义了一个跳跃连接,用于结合深层的语义信息和浅层的空间信息,从而产生精准而详细的分割。我们的全卷积网络在PASCAL VOC、NYUDv2、 SIFT Flow数据集上达到了SOTA的效果,且在一张典型的图像上推理时间不到五分之一秒。

2、网络结构

通过在分类器的基础上去掉全连接层,得到了全卷积的网络结构,如下图:

由于分类器是不断进行下采样的,所以需要在后面进行上采样以得到高分辨率的输出。FCN的上采样是反卷积(关于卷积与反卷积的区别,可以参考这篇博客),其他论文也有使用插值的,如DeepLabV3+使用双线性插值。

此外,由于直接从最后一层恢复到原始大小,获得的分割结果过于粗糙,会丢失很多空间信息,因此,FCN提出了三种结构:FCN32s/FCN16s/FCN8s,如下图:

各个结构的描述如下:

  • FCN32s:直接将conv7之后的feature map上采样32倍,得到与原图大小一致的segment map用于预测;
  • FCN16s:先将conv7上采样2倍,然后与pool4逐点相加,然后上采样16倍;
  • FCN8s:conv7上采样4倍、poo4上采样2倍,与poor3逐点相加,然后上采样8倍;

之所以没有继续提出FCN4s、FCN2s之类的结构,是因为作者通发现从FCN16s到8s,跳跃连接进行信息融合所带的收益开始递减了,继续融合前面的feature map带来的收益已经不大了:

3、实验结果

三种结构对比,可见融合多个层的featuremap能够带来更加精细的分割:

和其他模型的对比:

4、结论

作者提到,全卷积神经网络是一大类网络,现代分类网络只是其中一个特例。基于分类网络,进行扩展和改进其结构,对不同分类的层进行融合,就达到了SOTA效果,同时简化和加速了学习、推理过程。

全卷积的思想影响了后续的基于深度学习的分割方法研究,从而诞生了很多类似的网络结构,如UNet系列、SegNet、ENet、DeepLab系列等,可见该作的影响力之深。

猜你喜欢

转载自blog.csdn.net/oYeZhou/article/details/112009119