【图像分割模型】从FCN说起

今天开启新的专栏《图像分割模型》。在这里，我们将共同探索解决分割问题的主流网络结构和设计思想，这是第1篇文章。

今天要说的是占据了图像分割编解码结构大半江山的Fully Convolutional Network（FCN）。

作者 | 孙叔桥

编辑 | 言有三

1 什么是分割

分割，顾名思义，就是把一个完整的东西按照某种方式或规则分成若干个部分。

那么什么是图像分割呢？简单来说，就是把图像中属于同一类别或同一个体的东西划分在一起，并将各个子部分区分开来。像下图这样：

为了训练神经网络，图片中这些像素点会按照某种规则被贴上一个“标签”，比如这个像素点是属于人、天空、草地还是树；更详细一点，可以再给它们第二个标签，声明它们是属于“哪一个人”或“哪一棵树”。

对于只有一个标签的（只区分类别）的任务，我们称之为“语义分割”（semantic segmentation）；对于区分相同类别的不同个体的，则称之为实例分割（instance segmentation）。由于实例分割往往只能分辨可数目标，因此，为了同时实现实例分割与不可数类别的语义分割，2018年Alexander Kirillov等人提出了全景分割（panoptic segmentation）的概念。

下图分别展示了（a）原始图像，（b）语义分割，（c）实例分割和（d）全景分割。

2 FCN

目前在图像分割领域比较成功的算法，有很大一部分都来自于同一个先驱：Long等人提出的Fully Convolutional Network（FCN），也就是今天我们要讨论的网络结构。FCN将分类网络转换成用于分割任务的网络结构，并证明了在分割问题上，可以实现端到端的网络训练。基于此，FCN成为了深度学习解决分割问题的奠基石。

目标识别网络（分类网络）尽管表面上来看可以接受任意尺寸的图片作为输入，但是由于网络结构最后全连接层的存在，使其丢失了输入的空间信息，因此，这些网络并没有办法直接用于解决诸如分割等稠密估计的问题。

考虑到这一点，FCN用卷积层和池化层替代了分类网络中的全连接层，从而使得网络结构可以适应像素级的稠密估计任务。如下图所示，这种全卷积网络结构不仅能够支持稠密估计，而且能够实现端到端的训练。

输入：整幅图像。

输出：空间尺寸与输入图像相同，通道数等于全部类别个数。

真值：通道数为1（或2）的分割图像。