Fully Convolutional Networks for Semantic Segmentation 个人总结

用于语义分割的全卷积网络

个人总结

  1. 啥是语义分割,给你一张图,里面是个动物,然后你告诉我这张图里是猫是狗或者是其他的啥,这是图像分类,你告诉我这张图像里每一个像素,是猫的、狗的还是其他,就是语义分割。分类是区别一张图,而语义分割是区别全部的像素

  1. 啥是实例分割呢,比如说一张图里有三只猫一只狗,语义分割就是告诉你哪些像素是猫,哪些像素是狗。而实例分割除了可以告诉你哪个是猫哪个是狗,还能告诉你哪个是猫一、哪个是猫二、哪个是猫三。因此实例分割也可以认为是语义分割加目标检测

  2. 啥是全卷积,全卷积就是你给我的特征图有多大,我的卷积核就有多大,不用遍历,一下就全卷完了。比如说,你输入的特征图是50 * 50 * 10,想得到的深度是20,那全卷积的特征核就是50*50*20,一下卷完

  3. 全卷积与全连接在计算量上有啥差异吗? 答案是没有。

    首先说明一下卷积计算量的方法:

    以输入50 * 50 * 10为例,卷积核为3*3,padding为1,步长为1,输出深度为20时的计算量为:

    卷积核大小3*3*20,当padding为1,步长为1时,就是输入的特征图每一个特征点都需要被这个卷积核运算一次,特征图宽度方向50*高度方向50*深度方向10,因此计算量是3*3*20*50*50*10

    全卷积核的大小为50*50*20,由于全卷积核与输入特征图大小相同,不需要在宽度和高度方向上遍历,因此全卷积的计算量是50*50*20*1*1*10

    全连接的计算量,输入特征图尺寸50 * 50 * 10*输出全连接尺寸1*1*20,因此计算量是50*50*10*1*1*20

    因此全卷积与全连接在计算量上没有差异

  4. 个人见解,仅供参考,欢迎大牛批评指正

摘要

卷积网络是产生特征层次结构的强大视觉模型。我们展示了卷积网络本身,经过端到端、像素到像素的训练,超越了语义分割领域的最新技术。 我们的关键见解是构建“完全卷积”网络,该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并与先前的模型建立了联系。我们将当代分类网络(AlexNet [19]、VGG 网络 [31] 和 GoogLeNet [32])改编为全卷积网络,并通过微调 [4] 将其学习表示转移到分割任务中。然后,我们定义了一种新颖的架构,它将来自深层、粗略层的语义信息与来自浅层、精细层的外观信息相结合,以产生准确和详细的分割。我们的全卷积网络实现了最先进的PASCAL VOC 分割(相对于 2012 年的 62.2% 平均 IU 提高了 20%)、NYUDv2 和 SIFT Flow,而对于一张经典图像的推理时间不到五分之一秒 .

1、简介

卷积网络正在推动识别方面的进步。 卷积网络不仅在整幅图像分类方面有所改进 [19、31、32],而且在具有结构化输出的本地任务上也取得了进展。 其中包括边界框对象检测 [29、12、17]、部分和关键点预测 [39、24] 以及局部对应 [24、9] 方面的进展。

从粗推理到精细推理的自然下一步是对每个像素进行预测。先前的方法使用卷积网络进行语义分割[27、2、8、28、16、14、11],其中每个像素都标有其封闭对象或区域的类别,但这项工作解决了一些缺点。

我们展示了一个完全卷积网络(FCN),在语义分割上经过端到端、像素到像素的训练,在没有进一步机器的情况下超过了最先进的技术。据我们所知,这是训练FCNs的第一项工作端到端(1)用于像素预测(2)来自超级有监督的预训练。学习和推理都是通过密集的前馈计算和反向传播在整个图像时间执行的。网络内上采样层支持在具有子采样池的网络中进行像素级预测和学习。

这种方法在渐近和绝对方面都是有效的,并且排除了其他工作中复杂化的需要。Patchwise 训练很常见 [27, 2, 8, 28, 11],但缺乏全卷积训练的效率。 我们的方法没有使用预处理和后处理的复杂性,预处理和后处理包括超像素 [8, 16]、提议 [16, 14] 或随机场或局部分类器的事后细化 [8, 16]。我们的模型通过将分类网络重新解释为完全卷积并从其学习表示中微调,将最近在分类 [19,31,32] 方面的成功转移到密集预测。 相比之下,以前的工作在没有监督预训练的情况下应用了小型卷积网络 [8, 28, 27]。

语义分割面临语义和位置之间的内在冲突:全局信息解决什么,而本地信息解决哪里。 深度特征层次在局部到全局金字塔中联合编码位置和语义。我们在第4.2节定义了一种新颖的“跳过”架构,以结合深层、粗略的语义信息和浅层、精细的外观信息(参见图 3)。

在下一节中,我们将回顾深度分类网络、FCN 的相关工作,以及最近使用卷积网络进行语义分割的方法。 以下部分解释 FCN 设计和密集预测权衡,介绍我们的网络内上采样和多层组合架构,并描述我们的实验框架。 最后,我们展示了 PASCAL VOC 2011-2、NYUDv2 和 SIFT Flow 的最新结果。

2、相关工作

我们的方法借鉴了深度网络最近在图像分类 [19, 31, 32] 和迁移学习 [4, 38] 方面取得的成功。 迁移首先在各种视觉识别任务 [4, 38] 上进行了演示,然后在检测以及混合提议分类器模型中的实例和语义分割 [12, 16, 14] 上进行了演示。 我们现在重新构建和微调分类网络,以直接、密集地预测语义分割。 我们绘制了 FCN 的空间,并在这个框架中定位了历史和最近的先前模型。

全卷积网络

据我们所知,将卷积网络扩展到任意大小的输入的想法首先出现在 Matan 等人中[25],它扩展了经典的 LeNet [21] 以识别数字字符串。因为他们的网络仅限于一维输入字符串,Matan 等人使用 Viterbide 编码来获得它们的输出。WolfandPlatt [37] 将卷积网络的输出扩展到邮政地址块四个角的检测分数的二维映射。这两部历史著作都进行了完全卷积的推理和学习以进行检测。 宁等人[27]定义了一个卷积网络,用于对具有完全卷积推理的秀丽隐杆线虫组织进行粗略的多类分割。

在当前的多层网络时代,也利用了全卷积计算。Sermanet 等人的滑动窗口检测,Pinheiro[29] 和 Collobert [28] 的语义分割,以及 Eigen 等人的图像恢复。[5]进行完全卷积推理。完全卷积训练很少见,但被汤普森等人有效使用。[35] 学习用于姿势估计的端到端部分检测器和空间模型,尽管他们没有展示或分析这种方法。

或者,他等人[17]丢弃分类网络的非卷积部分以制作特征提取器。 他们将提议和空间金字塔池结合起来,产生一个局部的、固定长度的分类特征。 虽然快速有效,但这种混合模型无法端到端学习。

使用卷积网络进行密集预测

最近的几项工作已将卷积网络应用于密集预测问题,包括 Ning 等人的语义分割[27],法拉贝特等人[8],以及 Pinheiro 和 Collobert [28];Ciresan 等人对电子显微镜的边界预测[2] 以及Ganin和Lempitsky [11] 的混合神经网络/最近邻模型的自然图像;以及 Eigen 等人的图像恢复和深度估计[5, 6]。这些方法的共同要素包括

• 限制容量和接受域的小模型;

• 补丁训练[27, 2, 8, 28, 11];

• 通过超像素投影、随机场正则化、过滤或局部分类进行后处理 [8、2、11];

• OverFeat [29] 介绍的密集输出 [28, 11] 的输入移位和输出交错; • 多尺度金字塔处理[8, 28, 11];

• 饱和tanh非线性[8, 5, 28]; 和

• 全部 [2, 11],

而我们的方法没有这种机制。但是,我们确实从FCN的角度研究了 patchwise training 3.4 和“shift-and-stitch”密集输出 3.2。我们还讨论了网络内上采样 3.3,其中 Eigen 等人的全连接预测。[6]是一个特例。

与这些现有方法不同,我们调整和扩展了深度分类架构,使用图像分类作为监督预训练,并通过完全卷积进行微调,以简单有效地从整个图像输入和整个图像基础中学习。

哈里哈兰等人[16]和古普塔等人[14]同样使深度分类网络适应语义分割,但在混合提议分类器模型中这样做。这些方法通过对边界框和/或区域提议进行采样以进行检测、语义分割和实例分割来微调R-CNN系统[12]。这两种方法都不是端到端学习的。

它们分别在PASCAL VOC分割和 NYUDv2 分割上取得了最先进的结果,因此我们直接将我们独立的端到端 FCN 与它们在第 5 节中的语义分割结果进行比较。

3、全卷积网络

卷积网络中的每一层数据都是一个大小为 h × w × d 的三维数组,其中 h 和 w 是空间维度,d是特征或通道维度。第一层是图像,像素大小为 h × w,有 d 个颜色通道。 较高层中的位置对应于它们路径连接到的图像中的位置,称为它们的感受野。

卷积网络建立在平移不变性之上。它们的基本组件(卷积、池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 将xij写入特定层中位置 (i,j) 的数据向量,并将yij写入下一层,这些函数通过以下方式计算输出yij

其中 k 称为内核大小,s 是步幅或子采样因子,f ks 确定层类型:卷积或平均池化的矩阵乘法,最大池化的空间最大值,或激活函数的元素非线性,以及对于其他类型的图层,依此类推。

这种函数形式在组合下保持不变,内核大小和步长服从变换规则

虽然一般的深度网络计算一般的非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或全卷积网络。 FCN 自然地对任何大小的输入进行操作,并产生相应(可能重新采样)空间维度的输出。

由 FCN 组成的实值损失函数定义了一个任务。 如果损失函数是最后一层空间维度的总和,

,则其梯度将是其每个空间分量的梯度的总和。 因此,在整个图像上计算的随机梯度下降与在0上计算的随机梯度下降相同,将所有最后一层的感受野作为一个小批量。

当这些感受野显着重叠时,前馈计算和反向传播在整个图像上逐层计算而不是独立地逐块计算时效率更高。

接下来,我们将解释如何将分类网络转换为产生粗略输出图的完全卷积网络。对于逐像素预测,我们需要将这些粗略输出连接回像素。第 3.2 节描述了 OverFeat [29] 为此目的引入的一个技巧。我们通过将其重新解释为等效的网络修改来深入了解这一技巧。 作为一种有效的替代方案,我们在第 3.3 节中引入了用于上采样的反卷积层。在 3.4 节中,我们考虑通过补丁采样进行训练,并在 4.3 节中证明我们的整个图像训练更快且同样有效。

图 1. 全卷积网络可以有效地学习为每像素任务(如语义分割)进行密集预测。

3.1、为密集预测调整分类器

典型的识别网络,包括 LeNet [21]、AlexNet [19] 及其更深层次的继任者 [31、32],表面上采用固定大小的输入并产生非空间输出。这些网络的全连接层具有固定的维度并丢弃了空间坐标。然而,这些全连接层也可以被视为具有覆盖其整个输入区域的内核的卷积。这样做会将它们转换为完全卷积网络,该网络接受任何大小和输出分类图的输入。 这种转换如图 2 所示。相比之下,非卷积网络,例如 Le 等人[20]的网络,缺乏这种能力。)

此外,虽然生成的映射等效于对特定输入块上的原始网络的评估,但计算在这些块的重叠区域上高度摊销。 例如,虽然 AlexNet 需要 1.2 毫秒(在典型的 GPU 上)生成 227 × 227 图像的分类分数,但完全卷积版本需要 22 毫秒才能从 500 × 500 图像生成 10 × 10 网格的输出,这 比天真的方法 1 快 5 倍以上。

这些卷积模型的空间输出图使它们成为语义分割等密集问题的自然选择。由于每个输出单元都可以使用基本事实,前向和后向传递都非常简单,并且都利用了卷积的固有计算效率(和积极优化)。

AlexNet 示例的相应后向时间对于单个图像为 2.4 毫秒,对于完全卷积的 10 × 10 输出映射为 37 毫秒,从而产生类似于前向传递的加速。 这种密集的反向传播如图 1 所示。

虽然我们将分类网络重新解释为完全卷积会为任何大小的输入生成输出图,但输出维度通常会通过子采样来减少。 分类网络子样本以保持过滤器小且计算要求合理。 这会粗化这些网络的完全卷积版本的输出,将其从输入的大小减小一个因子,该因子等于输出单元的感受野的像素步长。

图 2. 将全连接层转换为卷积层使分类网络能够输出热图。 添加层和空间损失(如图 1 所示)为端到端密集学习产生了高效的机器。

3.2、移位和缝合是过滤稀疏

输入移位和输出交错是一种技巧,它可以从粗略的输出中产生密集的预测,而无需插值,由 OverFeat [29] 引入。 如果输出被 f 因子下采样,则输入(通过左侧和顶部填充)向右移动 x 个像素,向下移动 y 个像素,对于 (x,y) ∈ {0,..., f - 1} × {0,...,f - 1}。这 f 2 个输入每个都通过卷积网络,输出是交错的,因此预测对应于其感受野中心的像素。

仅更改卷积网络的过滤器和层步长可以产生与这种移位拼接技巧相同的输出。考虑具有输入步幅 s 的层(卷积或池化),以及具有滤波器权重 f ij 的后续卷积层(省略特征维度,此处不相关)。将较低层的输入步幅设置为1会将其输出上采样s倍,就像shift-and-stitch一样。然而,将原始滤波器与上采样输出进行卷积不会产生与技巧相同的结果,因为原始滤波器只看到其(现在上采样)输入的缩减部分。 为了重现这个技巧,通过将过滤器放大为

(i 和 j 从零开始)。 重现该技巧的完整净输出涉及逐层重复此过滤器放大,直到删除所有子采样。

简单地减少网络中的子采样是一种折衷:过滤器可以看到更精细的信息,但感受野更小,计算时间更长。 我们已经看到 shift-and-stitch 技巧是另一种权衡:在不减小过滤器的感受野大小的情况下使输出更密集,但禁止过滤器访问比其原始设计更精细的信息。

尽管我们已经对 shift-and-stitch 进行了初步实验,但我们并没有在我们的模型中使用它。 正如下一节所述,我们发现通过上采样进行学习更加有效和高效,尤其是在与稍后描述的跳过层融合结合使用时。

3.3、上采样是向后跨步卷积

将粗略输出连接到密集像素的另一种方法是插值。 例如,简单的双线性插值通过仅取决于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出 y ij。

从某种意义上说,使用因子 f 进行上采样是小数输入步幅为 1/f 的卷积。 只要 f 是整数,一种自然的上采样方式就是反向卷积(有时称为反卷积),输出步幅为 f。 这样的操作实现起来很简单,因为它只是简单地反转卷积的前向和后向传递。因此,通过像素损失的反向传播,在网络中执行上采样以进行端到端学习。

请注意,此类层中的反卷积滤波器不需要固定(例如,双线性上采样),但可以学习。 一堆反卷积层和激活函数甚至可以学习非线性上采样。

在我们的实验中,我们发现网络内上采样对于学习密集预测是快速有效的。 我们最好的分割架构使用这些层来学习上采样以在第 4.2 节中进行精确预测。

3.4、Patchwise 训练是损失抽样

在随机优化中,梯度计算由训练分布驱动。 补丁训练和全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和小批量大小。 全图像全卷积训练与补丁训练相同,其中每个批次由图像(或图像集合)损失下方单元的所有感受野组成。 虽然这比补丁的统一采样更有效,但它减少了可能的批次数量。 但是,可以简单地恢复图像内的随机选择块。 将损失限制在其空间项的随机采样子集(或等效地在输出和损失之间应用 DropConnect 掩码 [36])会从梯度计算中排除补丁。

如果保留的补丁仍然有很大的重叠,完全卷积计算仍然会加速训练。 如果梯度在多个反向传递中累积,则批次可以包含来自多个图像的补丁。

补丁训练中的采样可以纠正类不平衡 [27, 8, 2] 并减轻密集补丁的空间相关性 [28, 16]。 在全卷积训练中,类平衡也可以通过对损失加权来实现,损失采样可以用来解决空间相关性。

我们在 4.3 节探讨了采样训练,并没有发现它为密集预测产生更快或更好的收敛。 整幅图像训练有效且高效。

4、分割架构

我们将 ILSVRC 分类器转换为 FCN,并通过网络内上采样和像素损失来增强它们以进行密集预测。 我们通过微调来训练分割。接下来,我们构建了一种新颖的跳过架构,它结合了粗略的、语义的和局部的外观信息来改进预测。

在本次调查中,我们对 PASCAL VOC 2011 分割挑战进行了训练和验证 [7]。 我们使用每像素多项式逻辑损失进行训练,并使用平均像素交集而不是联合的标准度量进行验证,其中包括背景在内的所有类别均采用平均值。 训练忽略了在基本事实中被掩盖(模糊或困难)的像素。

4.1、从分类器到密集 FCN

我们首先对第 3 节中经过验证的分类架构进行卷积。我们考虑赢得 ILSVRC12 的 AlexNet 3 架构 [19],以及在 ILSVRC14 中表现出色的 VGG 网络 [31] 和 GoogLeNet 4 [32]。 我们选择 VGG 16 层网络 5 ,我们发现它等效于该任务的 19 层网络。 对于 GoogLeNet,我们只使用最终的损失层,并通过丢弃最终的平均池化层来提高性能。 我们通过丢弃最终的分类器层来斩首每个网络,并将所有完全连接的层转换为卷积。 我们附加一个通道维度为 21 的 1 × 1 卷积来预测每个粗略输出位置的每个 PASCAL 类(包括背景)的分数,然后是一个反卷积层,将粗略输出双线性上采样到像素密集输出,如所述 在第 3.3 节中。 表 1 比较了初步验证结果以及每个网络的基本特征。 我们报告了以固定学习率(至少 175 个 epoch)收敛后取得的最佳结果。

从分类到分割的微调为每个网络提供了合理的预测。 即使是最差的模型也达到了最先进性能的 75%。 配备分段的 VGG 网络 (FCN-VGG16) 似乎是最先进的,在 val 上的平均 IU 为 56.0,而在测试中为 52.6 [16]。 对额外数据的训练将 val 7 子集的性能提高到 59.4 平均 IU。 培训细节在第 4.3 节中给出。

尽管分类准确度相似,但我们的 GoogLeNet 实现与此分割结果不匹配。

图 3. 我们的 DAG 网络学习将粗略的高层信息与精细的低层信息相结合。 图层显示为显示相对空间粗糙度的网格。 仅显示池化层和预测层; 中间卷积层(包括我们转换的全连接层)被省略。 实线(FCN-32s):我们的单流网络,在第 4.1 节中描述,在一个步骤中将 32 个预测上采样回像素。 虚线(FCN-16s):在步长 16 处结合来自最后一层和 pool4 层的预测,让我们的网络预测更精细的细节,同时保留高级语义信息。 虚线 (FCN-8s):来自 pool3 的额外预测,步幅 8,提供了进一步的精度。

4.2. 结合什么和在哪里

我们为分割定义了一个新的全卷积网络(FCN),它结合了特征层次结构的层并细化了输出的空间精度。 请参见图 3。

虽然完全卷积的分类器可以微调到如 4.1 所示的分割,甚至在标准度量上得分很高,但它们的输出粗糙得令人不满意(见图 4)。最终预测层的 32 像素步幅限制了上采样输出中的细节比例。

将线拓扑转换为 DAG,边缘从较低层向前跳到较高层(图 3)。当他们看到更少的像素时,更精细的预测应该需要更少的层,因此从较浅的网络输出中制作它们是有意义的。结合精细层和粗糙层,模型可以做出尊重全局结构的局部预测。类比 Florack 等人的多尺度局部射流[10],我们将我们的非线性局部特征层次结构称为深度喷射。

我们首先通过从 16 像素步幅层进行预测,将输出步幅分成两半。 我们在 pool4 之上添加了一个 1×1 的卷积层来产生额外的类预测。 我们通过添加一个 2 倍上采样层并将 6 个两个预测相加,将这个输出与在步长 32 处在 conv7(卷积 fc7)之上计算的预测融合(见图 3)。我们将 2 倍上采样初始化为双线性插值,但允许按照第 3.3 节所述学习参数。 最后,stride16 预测被上采样回图像。 我们称此网络为 FCN-16s。 FCN-16s 是端到端学习的,使用最后一个较粗的网络的参数进行初始化,我们现在将其称为 FCN-32s。 作用于池 4 的新参数是零初始化的,因此网络以未修改的预测开始。学习率降低了100倍。

学习这个跳跃网络将验证集的性能提高了 3.0 平均 IU 到 62.4。图 4 显示了输出精细结构的改进。 我们将这种融合与仅从 pool4 层学习(导致性能不佳)进行了比较,并且在不添加额外链接的情况下简单地降低了学习率(这导致性能提升微不足道,而没有提高输出质量)。

我们继续以这种方式融合来自 pool3 的预测与来自 pool4 和 conv7 的 2 倍上采样预测融合,构建网络 FCN-8。 我们获得了对 62.7 平均 IU 的微小额外改进,并发现输出的平滑度和细节略有改进。 在这一点上,我们的融合改进已经遇到收益递减,无论是关于强调大规模正确性的 IU 指标,还是在可见的改进方面,例如 在图 4 中,因此我们不会继续融合更低的层。

图 4. 通过融合来自不同步长的层的信息来改进全卷积网络,从而改善分割细节。前三个图像显示了我们的 32、16 和 8 像素步幅网络的输出(参见图 3)。

其他方式细化

减少池化层的步幅是获得更精细预测的最直接方法。 然而,这样做对于我们基于 VGG16 的网络来说是有问题的。 将 pool5 层设置为 stride 1 要求我们的卷积 fc6 具有 14×14 的内核大小,以保持其感受野大小。 除了它们的计算成本之外,我们还很难学习如此大的过滤器。 我们尝试使用更小的过滤器重新构建 pool5 之上的层,但未能成功实现可比的性能; 一种可能的解释是,上层 ImageNet 训练的权重的初始化很重要。

另一种获得更精细预测的方法是使用第 3.2 节中描述的 shiftand-stitch 技巧。 在有限的实验中,我们发现这种方法的成本改进比比层融合差。

4.3. 实验框架

优化

我们通过 SGD 以动量进行训练。 我们对 FCN-AlexNet、FCN-VGG16 和 FCN-GoogLeNet 分别使用 20 个图像的小批量大小和 10 -3 、10 -4 和 5 -5 的固定学习率,通过线搜索选择。 我们使用动量 0.9,权重衰减 5 -4 或 2 -4 ,并将偏差的学习率加倍,尽管我们发现训练对这些参数不敏感(但对学习率敏感)。 我们对类评分卷积层进行零初始化,发现随机初始化既不会产生更好的性能,也不会产生更快的收敛。 在原始分类器网络中使用的地方包含了 Dropout。

微调

我们通过整个网络的反向传播来微调所有层。 与表 2 相比,单独微调输出分类器仅产生完整微调性能的 70%。考虑到学习基本分类网络所需的时间,从头开始训练是不可行的。 (请注意,VGG 网络是分阶段训练的,而我们从完整的 16 层版本进行初始化。)对于粗 FCN-32s 版本,在单个 GPU 上进行微调需要三天,而升级到 FCN-16s 和 FCN-8s 版本。

图 5。 对整个图像进行训练只是作为有效的采样补丁,但通过更有效地使用数据导致更快的(墙上时间)收敛。 左图显示了对于固定的预期批量大小,采样对收敛速度的影响,而右图通过相对壁时间绘制了相同的图。

补丁采样

如第 3.4 节所述,我们的完整图像训练有效地将每张图像分批成一个由大的、重叠的补丁组成的规则网格。 相比之下,先前的工作在整个数据集 [27、2、8、28、11] 上随机采样补丁,可能会导致更高的方差批次,从而加速收敛 [22]。 我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,做出一个独立的选择来忽略每个具有一定概率 1-p 的最终层单元。 为了避免改变有效批次大小,我们同时将每批次的图像数量增加了 1/p。 请注意,由于卷积的效率,对于足够大的 p 值(例如,根据第 3.1 节中的数字,至少对于 p > 0.2),这种拒绝采样形式仍然比补丁训练更快。 图 5 显示了这种形式的采样对收敛的影响。 我们发现,与整个图像训练相比,采样对收敛速度没有显着影响,但由于每批需要考虑的图像数量更多,因此需要花费更多时间。 因此,我们在其他实验中选择未采样的全图像训练。

类平衡

全卷积训练可以通过对损失进行加权或采样来平衡类。 尽管我们的标签有轻微的不平衡(大约 3/4 是背景),但我们发现类平衡是不必要的。

密集预测

通过网络中的反卷积层将分数上采样到输入维度。 最后一层反卷积滤波器固定为双线性插值,而中间上采样层初始化为双线性上采样,然后学习。 不使用 Shift-andstitch(第 3.2 节)或等效的过滤器稀疏化。

增强

我们尝试通过随机镜像和“抖动”图像来增加训练数据,方法是在每个方向上将它们翻译多达 32 个像素(最粗略的预测尺度)。 这没有产生明显的改善。

更多训练数据

我们用于表 1 的 PASCAL VOC2011 分割挑战训练集标记了 1112 个图像。 哈里哈兰等人。 [15] 收集了更大的一组 8498 PASCAL 训练图像的标签,用于训练以前的最先进系统 SDS [16]。 该训练数据将 FCNVGG16 验证分数 7 提高了 3.4 分,平均 IU 为 59.4。

执行

所有模型都在单个 NVIDIA Tesla K40c 上使用 Caffe [18] 进行训练和测试。 模型和代码将在发布时开源。

说明:

To our knowledge, this is the first work to train FCNs end-to-end (1) for pixelwise prediction and (2) from super-vised pre-training

据我们所知,这是训练FCNs的第一项工作端到端(1)用于像素预测(2)来自超级有监督的预训练

这句有些翻译的不通顺

Patchwise 应该是参考文献中定义的之前的一种算法

猜你喜欢

转载自blog.csdn.net/XDH19910113/article/details/123108575