语义分割卷积神经网络快速入门

原文地址：https://blog.goodaudience.com/using-convolutional-neural-networks-for-image-segmentation-a-quick-intro-75bd68779225

语义分割的目的是将图像中的每个像素映射至一个目标类。样例如下：

上图中所有车辆被标记为相同的颜色，每个目标类都分别进行了分割，相比于分类，分割是一个更加复杂的问题。

我们使用全卷积网络（FCNs）对图像进行分割，全卷积网络首次在 这篇文章 中提出，这是为数不多的可读的研究论文之一，它不会用数学符号、专业名词和深奥的术语压垮你。如果你之前使用过卷积神经网络（CNNs），一定要阅读一番。

我会介绍两个重要的技巧，使你能够将用于图像分类的预训练 CNN 转换为 FCN 来执行图像分割。

将全连接层（FC）转换为卷积层（CONV）

FC 和 CONV 层唯一的不同在于 CONV 层中的神经元仅仅和输入中的局部区域相连接，CONV 块中的很多神经元共享参数。然而，这两个层中的神经元仍然要计算点积，所以它们的函数形式是相同的。因此，在 FC 和 CONV 层之间进行转换是可行的。

来源： cs231n lecture notes

假设你的卷积层输出大小为7x7x512，紧跟一个有 4096 个神经元的 FC 层，则对于一个单独的输入图像来说，FC 层的输出就为 1x4096。
FC-CONV
你可以将 FC 层替换为 CONV 层，使用 7x7 的卷积核、补零、步长为1、输出深度为 4096。你可以快速地算出输出仅为 1x1x4096，与 FC 层的输出相同。

FC 层到 CONV 层转换的实用方法

让我们考虑一个网络架构，输入图像大小为 224x224x3，然后使用一系列卷积、池化和全连接层来减小图像，最后送入大小为 1000 的激活层，即 1000 个目标类别的分类分数。

CNN
通过上面的架构你可以发现 Conv5 层的输出大小为 7x7x512，然后是两个各有 4096 个神经元的 FC 层。上述架构对输入进行下采样，空间尺寸减小了 2⁵ 倍，使得第五层输出的空间大小为 224/2/2/2/2/2 = 7。

如上文所描述，我们可以将这3个 FC 层转换为 CONV 层：
- 第一个 FC 层可以使用 7x7 卷积核使其输出为 [1x1x4096]
- 第二个 FC 层可以使用 1x1 卷积核使其输出为 [1x1x4096]
- 最后一个 FC 层可以使用 1x1 卷积核使其输出为 [1x1x1000]

例如，如果一个 224x224 的图像能够得到 [7x7x512] 的中间快，即大小除以32，那么输入一张 384x384 的图像可以得到 [12x12x512] 的中间块，因为 384/32=12。紧接着的3个 CONV 层使得最后的输出为 [6x6x1000]，因为(12-7)/1+1=6。注意到我们得到的不是一个 [1x1x1000] 的向量类别分数，而是 [6x6x1000] 的数组类别分数。

扫描二维码关注公众号，回复： 1123865 查看本文章