Fully Convolutional Networks for Semantic Segmentation----2014CVPR FCN论文解读

Fully Convolutional Networks for Semantic Segmentation----2014CVPR论文解读

Abstract

卷积网络在特征分层领域是非常强大的视觉模型。我们证明了卷积网络本身，经过训练的端到端，像素到像素，在语义分割方面超过了最新技术。我们的核心观点是建立“全卷积”的网络，该网络可以输入任意大小的输入，并通过有效的推理和学习产生相应大小的输出。我们定义和详细说明了全卷积网络的空间，解释了它们在空间密集的预测任务中的应用，并绘制了与先前模型的联系。我们改编当前的分类网络（AlexNet [19]，VGG net [31]和GoogLeNet [32]）到完全卷积的网络，并通过微调[4]将其学习的表示传递给分割任务。然后，我们定义了一种跳跃式的体系结构，结合来自深、粗层的语义信息和来自浅、细层的表征信息来产生准确和精细的分割。我们的全卷积网络实现了PASCAL VOC（20％的相对改进，到2012年平均IOU达到62.2％），NYUDv2和SIFT Flow的最新细分，而对于典型图像，推理所需的时间不到五分之一秒。

1.Introduction

卷积网络正在推动识别技术的进步。卷积不仅改善了全图像分类[19，31，32]，而且在具有结构化输出的本地任务上也取得了进展。这些包括目标检测边界框[29、12、17]，部分和关键点预测[39、24]以及局部通信[24、9]方面的进步。
从粗略推断到精细推断的进展中下一步就是要对每个像素进行预测。先前的方法已经将卷积用于语义分割[27、2、8、28、16、14、11]，其中每个像素都用其包围的对象或区域的类别标记，但是具有该工作要解决的缺点。
在这里插入图片描述
我们证明了在语义分割上训练的端到端，像素到像素的完全卷积网络（FCN）超过了最新技术，而没有其他机制。据我们所知，这是端到端训练FCN的第一项工作（1）用于像素预测，而（2）则来自监督式预训练。现有网络的完全卷积版本可以预测任意大小输入的密集输出，通过密集前馈计算和反向传播可以一次全图像地进行学习和推理。网络内上采样层可通过子采样池在网络中实现像素级预测和学习。

这种方法在渐近性和绝对性上都是有效的，并且不需要其他工作中的复杂性。逐块训练是常见的[27、2、8、28、11]，但缺乏完全卷积训练的效率。我们的方法没有利用前后处理的复杂性，包括超像素[8，16]，proposals[16，14]或通过随机字段或局部分类器进行事后精炼[8，16]。我们的模型通过将分类网络重新解释为完全卷积并根据其学习表示进行微调，将最近在分类[19、31、32]中的成功转移到密集预测。相比之下，先前的工作在没有监督的预训练的情况下应用了小型卷积网络[8，28，27]。

语义分割面临着语义和位置之间的固有矛盾：全局信息解决了是什么，而本地信息解决了在哪里。深度特征层次结构共同在局部到全局金字塔中编码位置和语义。我们在第4.2节中定义了一种新颖的“跳过”体系结构，以结合深度，粗略，语义信息和浅，精细，外观信息（参见图3）。

在下一节中，我们将回顾有关深度分类网，FCN和使用卷积网络进行语义分割的最新方法的相关工作。以下各节介绍了FCN设计和密集的预测权衡方案，介绍了具有网络内上采样和多层组合的架构，并介绍了我们的实验框架。最后，我们展示了PASCAL VOC 2011-2，NYUDv2和SIFT Flow的最新结果。

2.Related work

我们的方法借鉴了深层网络在图像分类[19，31，32]和转移学习[4，38]方面的最新成功。转移首先在各种视觉识别任务中得到证明[4，38]，然后在检测中得到证明，并在混合提议分类器模型中在实例和语义分割上得到证明[12，16，14]。现在，我们重新构建和优化分类网，以进行语义细分的直接，密集的预测。我们在此框架中绘制了FCN的空间并放置了历史模型和最新模型。

完全卷积网络 据我们所知，将卷积网络扩展到任意大小的输入的想法首先出现在Matan等人中。 [25]扩展了经典的LeNet [21]以识别数字字符串。因为它们的网络仅限于一维输入字符串，所以Matan等人。使用译码器解码获得其输出。 Wolf和Platt [37]将convnet输出扩展到邮政地址块四个角的检测分数的二维图。这两个历史著作都进行了推理和完全卷积学习以进行检测。宁等。 [27]定义了一个卷积网络，用于使用完全卷积推理对秀丽隐杆线虫组织进行粗分类。

在当今的多层网络中，也已经开发了完全卷积计算。 Sermanet等人的滑动窗口检测。 [29]，由Pinheiro和Collobert [28]进行语义分割，以及由Eigen等人进行图像复原。 [5]做全卷积推理。完全卷积训练是很少见的，但是被汤普森等人有效地使用。 [35]学习一个端到端的零件检测器和空间模型来进行姿势估计，尽管它们没有阐述或分析这种方法。

另外，He等。 [17]丢弃分类网的非卷积部分，制成特征提取器。他们将提案和空间金字塔池相结合，以生成用于分类的局部固定长度特征。尽管这种混合模型快速有效，但无法端对端学习。

卷积网络的密集预测 最近的一些著作已经将卷积应用于密集的预测问题，包括Ning等人的语义分割。 [27]，Farabet等人[8]，以及Pinheiro和Collobert [28]； Ciresan等人的电子显微镜边界预测。 [2]以及Ganin和Lempitsky [11]的混合神经网络/最近邻居模型的自然图像；以及Eigen等人的图像恢复和深度估计。 [5，6]。这些方法的共同要素包括

限制容量和接收域的小模型；
逐批训练[27、2、8、28、11]；
通过超像素投影，随机场正则化，滤波或局部分类进行后处理[8,2,11]；
由OverFeat [29]引入的用于密集输出[28，11]的输入移位和输出隔行；
多尺度金字塔处理[8、28、11]；
饱和tanh非线性[8，5，28]；和
集成[2，11]，

而我们的方法没有这种机制。但是，我们确实从FCN的角度研究了分批训练3.4和“移位和缝合”密集输出3.2。我们还将讨论网络中的上采样3.3，其中Eigen等人的预测是完全相关的。 [6]是一个特例。

与这些现有方法不同，我们使用图像分类作为监督的预训练来适应和扩展深度分类体系结构，并进行全面卷积微调，以从整个图像输入和整个图像地基中简单有效地学习。

Hariharan等。 [16]和古普塔等。 [14]同样使深度分类网适应语义分割，但是在混合提议分类器模型中也是如此。这些方法通过为检测，语义分割和实例分割采样边界框和/或区域建议来微调R-CNN系统[12]。这两种方法都不是端到端学习的。

他们分别在PASCAL VOC分割和NYUDv2分割上获得了最新的结果，因此我们在第5节中直接将我们独立的端到端FCN与它们的语义分割结果进行比较。

3.完全卷积网络

卷积网络中的每一层数据都是尺寸为h×w×d的三维数组，其中h和w为空间维，d为特征或通道维。第一层是图像，像素大小为h×w，具有d个颜色通道。较高层中的位置对应于它们在路径上连接到的图像中的位置，这些位置称为它们的接收场。

卷积建立在翻译不变性上。它们的基本组件（卷积，池化和激活函数）在局部输入区域上运行，并且仅取决于相对空间坐标。将xij写入特定层中位置（i，j）的数据矢量，并将yij写入下一层，这些函数可通过以下方式计算输出yij
在这里插入图片描述
其中k称为内核大小，s为跨度或二次采样因子，而fks确定层类型：用于卷积或平均池的矩阵乘法，用于最大池的空间最大值，或用于激活函数的元素非线性，等等。在其他类型的图层上。

该函数形式保持组成不变，内核大小和步幅遵循转换规则在这里插入图片描述一般的深层网络计算一般的非线性函数，而只有这种形式的层的网络计算非线性滤波器，我们称其为深层滤波器或完全卷积网络。 FCN自然可以在任何大小的输入上运行，并产生对应的（可能是重新采样的）空间尺寸的输出。

由FCN组成的实值损失函数定义任务。如果损失函数是最后一层空间尺寸的总和，在这里插入图片描述它的梯度将是每个空间分量的梯度之和。因此，在整个图像上计算的l上的随机梯度下降将与l’上的随机梯度下降相同，将所有最终层的接收场都作为一个小批量。

当这些接收场明显重叠时，在整个图像上逐层计算而不是逐个补丁地进行时，前馈计算和反向传播的效率将大大提高。接下来我们将解释如何将分类网络转换为产生结果的全卷积网络粗略输出图：对于像素级预测，我们需要将这些粗略输出连接回像素。 3.2节描述了OverFeat [29]为此目的引入的技巧。通过将其重新解释为等效的网络修改，我们可以深入了解此技巧。作为一种有效的替代方法，我们在3.3节中介绍了反卷积层以进行上采样。在3.4节中，我们考虑通过逐块采样进行训练，并在4.3节中给出证据，证明我们的整个图像训练速度更快且同样有效。

3.1使分类器适应密集预测

典型的识别网络，包括LeNet [21]，AlexNet [19]及其更深的后继者[31、32]，表面上采用固定大小的输入并产生非空间输出。这些网的完全连接的层具有固定的尺寸并丢弃空间坐标。但是，这些完全连接的层也可以看作是覆盖整个输入区域的内核的卷积。这样做会将它们转换为完全卷积的网络，该网络可以接收任何大小的输入并输出分类图。图2中说明了这种转换。（相反，非卷积网络（例如Le等人的文献[20]）缺乏这种能力。）
在这里插入图片描述
图2.将完全连接的层转换为卷积层使分类网可以输出热图。增加层数和空间损失（如图1所示）将为端到端密集学习提供高效的机器。

此外，虽然生成的图等效于在特定输入色块上对原始网络的评估，但在这些色块的重叠区域上进行了高额摊销。例如，虽然AlexNet花费1.2毫秒（在典型的GPU上）来生成227×227图像的分类得分，但是完全卷积版本需要22毫秒才能从500×500图像中生成10×10的输出网格。比单纯的方法1快5倍以上。

这些卷积模型的空间输出图使它们成为诸如语义分割之类的密集问题的自然选择。由于每个输出单元都有可用的基本事实，因此前向和后向传递都很简单，并且都利用了卷积的固有计算效率（和主动优化）。

对于AlexNet示例，相应的后退时间对于单个图像为2.4 ms，对于完全卷积的10×10输出映射为37 ms，从而导致加速与向前传递相似。这种密集的反向传播如图1所示。虽然我们将分类网重新解释为任何大小的输入的完全卷积输出图，但通常通过二次采样来减小输出尺寸。分类网子采样可保持过滤器较小且计算要求合理。这使这些网络的完全卷积形式的输出变粗，从而使其与输入大小相比减小了等于像素的倍数
输出单元的接收场的跨度。

3.2移位和缝合是过滤器稀疏**

输入移位和输出隔行扫描是一种技巧，它可以从粗略输出中获得密集预测而无需插值，这是由OverFeat [29]引入的。如果对输出进行下采样f倍，则对于每个的值，将输入（向左和顶部填充）向右移x个像素，向右移y个像素。在这里插入图片描述
这些f2输入每个都通过卷积网络，并且输出是隔行扫描的，因此预测对应于其接收场中心的像素。

仅更改卷积网络的过滤器和层跨度就可以产生与该移位和缝合技巧相同的输出。请考虑输入步幅为s的层（卷积或池化），以及下一个具有过滤器权重为fij的卷积层（消除特征）尺寸，与此处无关）。将下层的输入步幅设置为1时，就像移位和缝合一样，将其输出上采样s倍。但是，将原始滤波器与上采样输出进行卷积不会产生与技巧相同的结果，因为原始滤波器只能看到其（现在是上采样）输入的减少部分。要重现该技巧，请将过滤器放大为
在这里插入图片描述
（其中i和j从零开始）。再现技巧的完整净输出涉及逐层重复此滤波器放大，直到删除所有子采样为止。

简单地减少网络内的二次采样是一个折衷方案：滤波器可以看到更精细的信息，但接收场较小，计算所需的时间更长。我们已经看到，移位和绣制技巧是另一种折衷方案：在不减小过滤器的接收场大小的情况下，使输出更密集，但是与原始设计相比，禁止过滤器以更精细的比例访问信息。

尽管我们已经进行了平移和绣制的初步实验，但是我们并未在模型中使用它。我们发现通过下采样进行学习将变得更加有效，这将在下一节中介绍，特别是与稍后描述的跳过层融合结合使用时。

3.3向上采样是向后跨步卷积**

将粗略输出连接到密集像素的另一种方法是插值。例如，简单的双线性插值通过仅依赖于输入和输出像元的相对位置的线性映射从最近的四个输入计算每个输出yij。

从某种意义上讲，使用因子f进行的上采样是具有1 / f的分数输入步幅的卷积。只要f是整数，向上采样的自然方法就是输出步幅为f的向后卷积（有时称为反卷积）。这样的操作实现起来很简单，因为它简单地反转了卷积的正向和反向过程。因此，上采样是在网络中进行的，通过反向传播从像素损失中进行端到端学习。

请注意，此类层中的反卷积滤波器无需固定（例如，固定为双线性上采样），而是可以学习的。一叠反卷积层和激活函数甚至可以学习非线性上采样。

在我们的实验中，我们发现网络内上采样对于学习密集预测是快速有效的。我们最好的分割架构使用这些层来学习上采样，以进行第4.2节中的精确预测。

3.4分批训练是损失抽样

在随机优化中，梯度计算由训练分布驱动。虽然它们的相对计算效率取决于重叠和最小批处理大小，但可以使补丁式训练和全卷积训练两者都产生任何分布。完整图像的全卷积训练与逐块训练相同，在该训练中，每批都包含低于图像损失（或图像收集）的单位的所有接受场。尽管这比统一补丁采样更为有效，但它减少了可能的批次数量。但是，可以简单地恢复图像内补丁的随机选择。将损耗限制为其空间项的随机采样子集（或等效地在输出和损耗之间应用DropConnect掩码[36]）可将梯度中的色块排除在外。

如果保留的色块仍具有明显的重叠，则完全卷积计算仍将加快训练速度。如果在多个向后遍历上积累了梯度，则批处理可能包含来自多个图像的补丁。2

逐块训练中的采样可以纠正类不平衡[27、8、2]，并减轻密集块的空间相关性[28、16]。在完全卷积训练中，也可以通过加权损失来实现类平衡，并且可以使用损失采样来解决空间相关性。

我们在第4.3节中探讨了采用采样的训练，但没有发现对于密集的预测它会产生更快或更佳的收敛。整个图像训练是有效和高效的。

4.分割架构

我们将ILSVRC分类器转换为FCN，并通过网络内上采样和逐像素损失对它们进行增强以进行密集的预测。我们通过微调训练分割，然后建立一种新颖的跳跃架构，该架构将粗糙，语义和局部的外观信息相结合以完善预测。

对于此调查，我们训练并验证了PASCAL VOC 2011细分挑战[7]。我们使用每像素多项式逻辑损失进行训练，并使用平均像素相交与并集的标准度量进行验证，并采用包括背景在内的所有类别的均值。训练会忽略在真实情况下被掩盖（模糊或困难）的像素。

4.1从分类器到密集FCN

首先，如第3节所述，对经过验证的分类架构进行卷积。我们考虑赢得ILSVRC12的AlexNet 3架构[19]以及在ILSVRC14中表现出色的VGGnets [31]和GoogLeNet 4 [32]。我们选择了VGG 16层网络5，发现它相当于此任务上的19层网络。对于GoogLeNet，我们仅使用最终的损失层，并通过丢弃最终的平均合并层来提高性能。我们通过丢弃最终的分类器层来使每个网络断头，并将所有完全连接的层转换为卷积。我们将通道尺寸为21的1×1卷积附加到每个PASCAL类（包括背景）的每个粗输出位置处的分数预测中，然后通过解卷积层将粗输出双线性上采样为像素密集输出，如所述在第3.3节中。表1比较了初步验证结果以及每个网络的基本特征。我们报告了以固定的学习速率（至少175个纪元）收敛后获得的最佳结果。

从分类到细分的微调为每个网络提供了合理的预测。即使是最差的型号，也能达到约75％的最新性能。配备分段功能的VGG网络（FCN-VGG16）在val的平均IU为56.0时已经是最新技术，而在测试时为52.6 [16]。对额外数据的培训将在val 7的子集上将性能提高到59.4，平均IU。培训细节在第4.3节中给出。

尽管分类精度相似，但我们的GoogLeNet实施与该细分结果不匹配。

4.2结合什么和哪里

我们定义了一个新的完全卷积网络（FCN）进行分割，该网络结合了要素层次结构的各个层并完善了输出的空间精度。参见图3。

尽管可以将完全卷积的分类器微调至细分（如4.1所示），甚至在标准指标上得分很高，但它们的输出却令人不满意地粗糙（请参见图4）。最终预测层的32像素步幅限制了上采样输出中的细节比例。

我们通过添加将最终预测层与较低层以及更细的步幅结合起来的链接来解决此问题。这将线拓扑变成DAG，其边缘从较低的层向前跳到较高的层（图3）。当他们看到较少的像素时，更精细的比例预测应该需要较少的图层，因此从较浅的净输出中进行选择是有意义的。将精细层和粗糙层结合在一起，可以使模型做出符合整体结构的局部预测。类似于Florack等人的多尺度局部射流。 [10]，我们称非线性局部特征层次为深喷射。

表1.我们将三个分类卷适应并扩展到细分。我们通过PASCAL VOC 2011验证集上的平均交集与并集以及推理时间（在NVIDIA Tesla K40c上进行500×500输入的20多次试验求平均值）来比较性能。我们针对密集预测详细介绍了自适应网络的体系结构：参数层数，输出单元的接收场大小以及网络内最粗的步幅。（这些数字给出了以固定学习率获得的最佳性能，而不是最佳性能。）
在这里插入图片描述
我们首先根据16个像素的步幅层进行预测，将输出步幅分为两半。我们在pool4顶部添加一个1×1卷积层，以产生其他类预测。通过将2x上采样层相加并加总这6个预测，我们将此输出与在第32步在conv7（卷积化的fc7）顶部计算的预测相融合。（请参见图3）。我们将2x上采样初始化为双线性插值，但允许按照第3.3节中的描述学习参数。最终，将stride16预测上采样回图像。我们将此网络称为FCN-16s。FCN-16s是端到端学习的，它使用最后一个更粗的网络（现在称为FCN-32s）的参数进行初始化。作用于pool4的新参数被零初始化，因此网络以未修改的预测开始。学习率降低了100倍。

学习此跳跃网可将验证集的性能提高3.0个平均IU，达到62.4。图4显示了输出精细结构的改进。我们将这种融合与仅从pool4层进行学习（这导致性能较差）进行了比较，并简单地降低了学习速率而未添加额外的链接（这导致性能的改善不明显，而没有提高输出质量）。

我们以这种方式继续进行工作，将pool3中的预测与pool4和conv7中的预测进行2倍的上采样融合，构建净FCN-8。我们将平均IU值略微改善了62.7 IU，并在输出的平滑度和细节上发现了轻微的改善。在这一点上，我们的融合改进遇到了收益递减的问题，无论是关于强调大规模正确性的IU度量标准，还是在可见的改进方面，例如在图4中，因此我们不会继续融合更低的层。
在这里插入图片描述
图4.通过融合来自具有不同步幅的图层中的信息来完善全卷积网络可改善分割细节。前三幅图像显示了来自32、16和8像素步幅网络的输出（请参见图3）。

表2.在PASCAL VOC2011验证的子集上跳过FCN的比较7。学习是端到端的，除了FCN-32s固定的（仅对最后一层进行微调）之外。请注意，FCN-32是FCN-VGG16，已重命名以突出显示步幅。
在这里插入图片描述
通过其他方式提炼 ** 减小池化层的步幅是获得更精确预测的最直接方法。但是，这样做对于基于VGG16的网络来说是有问题的。将pool5层设置为跨度为1时，需要我们卷积化的fc6的内核大小为14×14，以保持其接收场大小。除了它们的计算成本外，我们还很难学习这么大的滤波器。我们尝试使用较小的过滤器重新构造pool5之上的层，但未能成功实现可比的性能。一种可能的解释是，由ImageNet训练的权重在上层进行初始化很重要。

获得更精确的预测的另一种方法是使用3.2节中描述的移位和缝合技巧。在有限的实验中，我们发现这种方法的成本改进率比层融合差。

4.3实验框架

优化我们通过SGD进行培训。对于行搜索选择的FCN-AlexNet，FCN-VGG16和FCN-GoogLeNet，我们分别使用20张图像的小批量大小和10 -3，10 -4和5 -5的固定学习率。尽管我们发现训练对这些参数不敏感（但对学习率敏感），但我们使用动量0.9，权重衰减为5 -4或2 -4并使学习率增加了一倍。我们对类评分卷积层进行零初始化，发现随机初始化既不会产生更好的性能，也不会产生更快的收敛.Dropout包含在原始分类器网络中。

微调我们通过整个网络的反向传播来微调所有层。与表2相比，仅对输出分类器进行微调就只能获得全部微调性能的70％。考虑到学习基础分类网所需的时间，从头开始培训是不可行的。（请注意，VGG网络是分阶段训练的，而我们是从完整的16层版本开始进行初始化的。）对于粗略的FCN-32s版本，微调在单个GPU上需要三天，而每个升级大约需要一天。 FCN-16s和FCN-8s版本。
在这里插入图片描述
图3.我们的DAG网络学习将粗糙的高层信息与精细的低层信息相结合。图层显示为显示相对空间粗糙度的网格。仅显示池化层和预测层。中间卷积层（包括我们转换后的全连接层）被省略。实线（FCN-32s）：如第4.1节所述，我们的单流网络仅一步就将32个预测的步幅扩大到像素。虚线（FCN-16）：在第16步结合来自最后一层和pool4层的预测，使我们的网络可以预测更精细的细节，同时保留高级语义信息。虚线（FCN-8s）：在第8步中来自pool3的其他预测提供了更高的精度。

块采样 如第3.4节所述，我们的完整图像训练有效地将每个图像批处理为大块重叠色块的规则网格。相比之下，先前的工作在整个数据集上随机采样补丁[27、2、8、28、11]，可能导致更高的方差批次，从而可能加速收敛[22]。我们通过以较早描述的方式在空间上对损耗进行采样来研究这种折衷，并做出独立选择以某个概率1-p忽略每个最终层单元。为了避免更改有效的批次大小，我们同时将每批次的图像数量增加了1 / p。请注意，由于卷积的效率高，对于足够大的p值（例如，至少根据第3.1节中的p> 0.2而言），这种形式的拒绝采样仍比分片训练更快。图5显示了这种形式的抽样对收敛的影响。我们发现，与整个图像训练相比，采样对收敛速度没有显着影响，但是由于每批需要考虑的图像数量更多，因此采样花费的时间明显更多。因此，我们在其他实验中选择未采样的整体图像训练。
在这里插入图片描述
图5。在整个图像上进行训练与采样补丁一样有效，但是通过更有效地利用数据可以加快（墙上时间）收敛。左图显示了对于固定的预期批次大小，采样对收敛速度的影响，而右图则通过相对壁时间绘制了相同的结果。

类平衡 完全卷积训练可以通过加权或采样损失来平衡类。尽管我们的标签略有不平衡（大约是背景的3/4），但我们发现类平衡是不必要的。

**密集预测 ** 分数通过网络中的反卷积层上采样到输入维度。最终层反卷积滤波器固定为双线性插值，而中间上采样层则初始化为双线性上采样，然后学习。不使用移位和缝合（第3.2节）或等效的过滤器稀疏性。

**增广 ** 我们尝试通过随机镜像和“抖动”图像来增强训练数据，方法是将图像在每个方向上转换为最多32个像素（最粗的预测比例）。这没有产生明显的改善。

更多训练 数据PASCAL VOC2011细分挑战训练集（我们用于表1）标记了1112张图像。 Hariharan等。 [15]已经收集了更大的8498 PASCAL训练图像集的标签，这些图像用于训练以前的最新系统SDS [16]。该训练数据将FCN-VGG16验证得分7提高了3.4点，至59.4平均IU。

实作所有模型都在单个NVIDIA Tesla K40c上使用Caffe [18]进行了培训和测试。这些模型和代码将在发布时以开源形式发布。

5.结果**

我们在语义分割和场景解析方面测试了FCN，探索了PASCAL VOC，NYUDv2和SIFT Flow。尽管这些任务历来在对象和区域之间有所区别，但我们将两者均视为像素预测。我们在每个数据集上评估FCN跳过体系结构8，然后将其扩展到NYUDv2的多模式输入，以及SIFT Flow的语义和几何标签的多任务预测。

指标我们从常见语义分割和场景解析评估中报告了四个指标，这些指标是像素精度和联合区域交集（IU）的变化。令nij为预测属于类别j的类别i的像素数，其中存在ncl个不同的类别，并令
在这里插入图片描述是类别i的像素总数。我们计算：像素精度、平均精度、平均IU、频率加权IU

PASCAL VOC

表3给出了FCN-8在PASCAL VOC 2011和2012测试台上的性能，并将其与之前的最新SDS [16]和著名的R-CNN [12]进行了比较。我们在平均IU 上实现了20％的相对裕度的最佳结果。推理时间减少了114倍（仅针对convnet，不考虑建议和改进）或286倍（总体）。

表3.与PASCAL VOC 2011和2012测试集上的最新技术相比，我们的全卷积网络提供了20％的相对改进，并减少了推理时间。
在这里插入图片描述
NYUDv2 [30]是使用Microsoft Kinect收集的RGB-D数据集。它具有1449个RGB-D图像，其像素点标签已由Gupta等人合并为40类语义分割任务。 [13]。我们报告了795张训练图像和654张测试图像的标准分割结果。（注意：所有模型的选择均在PASCAL 2011 val上进行。）表4给出了几种模型的性能。首先，我们在RGB图像上训练未修改的粗糙模型（FCN-32s）。为了增加深度信息，我们训练了一个升级后的模型以采用四通道RGB-D输入（早期融合）。这可能带来的好处很小，可能是由于很难在模型中一直传播有意义的梯度。随着古普塔等人的成功。 [14]，我们尝试对深度进行三维HHA编码，仅在此信息上训练网络，以及RGB和HHA的“后期融合”，其中来自两个网络的预测在最后一层相加，并得出结果两流网络是端到端学习的。最后，我们将这个后期的融合网升级到16步的版本。

表4. NYUDv2上的结果。 RGBD是输入端的RGB和深度通道的早期融合。 HHA是[14]的深度嵌入，它是水平差异，离地面的高度以及局部表面法线与推断重力方向的夹角。 RGB-HHA是联合训练的后期融合模型，将RGB和HHA预测相加。
在这里插入图片描述
SIFT Flow是一个包含2688个图像的数据集，带有33个语义类别（“桥”，“山”，“太阳”）以及三个几何类别（“水平”，“垂直”和“天空”）的像素标签。 FCN可以自然地学习同时预测两种类型标签的联合表示形式。我们学习具有语义和几何预测层以及损失的FCN-16的双头版本。学习的模型在两个任务上的表现都好于两个独立训练的模型，而学习和推理在本质上与每个独立模型一样快。表5中的结果按标准分为2488张训练图像和200张测试图像进行了计算，其中10张显示了两项任务的最新性能。

表5. SIFT Flow 10中具有类分割（中心）和几何分割（右）的结果。 Tighe [33]是一种非参数传递方法。 Tighe 1是示例SVM，而2是SVM + MRF。 Farabet是在类平衡样本（1）或自然频率样本（2）上经过训练的多尺度卷积网络。 Pinheiro是一个多尺度的循环卷积，表示为R CNN 3（◦3）。几何指标是像素精度。

在这里插入图片描述

图6.完全卷积的分段网络在PASCAL上产生了最先进的性能。左列显示了性能最高的网络FCN-8的输出。第二部分显示了Hariharan等人先前的最新系统所产生的分割结果。 [16]。注意恢复的精细结构（第一行），分离紧密相互作用的对象的能力（第二行）以及对遮挡物的稳健性（第三行）。第四行显示了一个失败案例：网络将船上的救生衣视为人。