具有短连接的深度监督的显著性目标检测

摘要

显著目标检测的最新进展是实质性的，主要受益于卷积神经网络（CNN）的爆炸式发展。最近开发的语义分割和显著目标检测算法主要基于完全卷积神经网络（FCN）。对于没有明确处理尺度空间问题的通用FCN模型，仍有很大的改进空间。整体嵌套边缘检测器（HED）提供跳过层结构，对边缘和边界检测进行深度监督，但HED在显著性检测上的性能增益不明显。在本文中，我们通过在HED架构内引入跳过层结构的短连接提出了一种新的显著目标检测方法。我们的框架充分利用从FCN中提取的多级和多尺度特征，在每一层提供更高级的表示，这是执行分割检测所必需的属性。我们的方法在5个广泛测试的显著目标检测基准上产生了最佳的结果，在效率方面（每个图像0.08秒），有效性和现有算法的简单性方面具有优势。除此之外，我们还对训练数据对性能的作用进行了详尽的分析。我们的实验结果为未来的研究和公平比较提供了更合理，更有力的训练。

1.引言

显著目标检测是识别图像中视觉上最独特的对象或区域，然后将它们从背景中分割出来。与其他类似分割的任务（例如语义分割）不同，显著目标检测更注重极少数有趣且有吸引力的对象。这种有用的特性使得显著目标检测通常可以作为各种计算机视觉应用的第一步，包括图像和视频压缩[2]，[3]，图像分割[4]，内容感知图像编辑[5]，[6]，目标识别[7]，弱监督语义分割[8]-[11]视觉跟踪[12]，真实渲染[13]，[14]，照片合成[15]，[16]，信息披露[17]，[18]，图像检索[19]，[20]，动作识别[21]等。

早期的显著目标检测方法主要受到视觉注意的认知研究的启发[22]，其中,对比在显著性检测中起着最重要的作用。考虑到这一事实，我们设计了各种手工制作的特性，采用全局或局部方式（参见[23]，[24]进行评论）。但是，由于这些手工制作的特征是基于现有数据集的先验知识，因此无法扩展虽然有些工作人员试图开发不同的方案来组合这些特征而不是利用个别特征，但由此产生的显著性图仍然远远不能令人满意，特别是在遇到复杂和杂乱的场景时。为了克服由人类先验引起的缺点，基于方法的学习（例如[25]）似乎更好地整合不同类型的特征以提高泛化能力。然而，由于许多融合细节是手动设计的，因此丰富的特征表示仍然遭受低对比度并且无法在杂乱的场景中检测到显著的对象。

在各种计算机视觉任务中，如图像分类[27]，[28]，语义分割[29]，边缘检测[26]，[30]，目标检测[31]，[32]和行人检测[33]，卷积神经网络（CNNs）[34]成功地突破了传统手工制作的特征的极限。完全卷积神经网络（FCNs）[29]的出现进一步推动了这些研究领域的发展，提供了一种更有原则的学习方法。这种端到端学习工具也激发了最近使用FCN进行显著目标检测的研究工作[35]，[36]。从FCN中的大量参数中受益，与以前的方法相比，已经取得了很大的性能提升。完整嵌套的边缘检测器(HED)[26]模型明确地处理了尺度空间问题，在边缘检测上下文中，它导致了对一般FCN模型的巨大改进。虽然从不同尺度提取的多层次特征融合机制为边缘检测提供了一种更为自然的方式，但对分割等相关的任务却无能为力。边缘检测实际上不能用于高级语义特征表示。这解释了为什么在HED模型中具有深度监督的跳过层结构不会导致显著性检测的明显性能增益。实验结果也支持这一说法，如图1所示。

在本文中，我们主要研究具有深度监督的跳层结构。我们不是简单地融合从不同尺度提取的多级特征，而是在自上而下的视图中考虑这样的问题。如图1所示，我们观察到

1）较深的边缘输出编码高级语义知识，因此可以更好地定位显著对象所在的位置。然而，由于FCNs的下采样操作，所预测的图谱通常形状不规则，特别是当输入图像复杂且杂乱时(见瓶子图像），

2）较浅的边缘输出捕获丰富的空间信息。尽管产生了混乱的预测图，它们仍能够成功地突出显示那些显著对象的边界。

基于这些现象，产生更好的显著性图谱的直观想法是合理地组合这些多级特征。这促使我们开发一种新的显著性目标检测方法，方法是在HED[26]体系结构中引入短连接到跳层结构。通过从较深侧输出到较浅侧输出的一系列短连接，我们的新框架提供了两个优点：

高级特征可以转换为较浅的输出层，从而可以帮助它们更好地定位最显著的区域

2)较浅输出层可以学习丰富的低级特征，可以帮助从较深输出层重新定义稀疏和不规则的预测图。

通过组合来自不同级别的特征，所得到的体系结构在每一层提供丰富的多尺度特征图，这是实现有效显著目标检测所必需的属性。我们的方法是完全卷积的，不需要其他先验信息，如超像素。生成分辨率为300*400像素的预测图仅需0.08秒。除了改进最先进的结果，我们对不同训练集的行为进行详尽的分析，因为在显著性目标检测领域没有公平比较的通用训练集。我们的目标是提供更加统一的训练集，同时为未来的研究建立公平的基准环境。

2.相关工作

在过去的二十年中，开发了一套极为丰富的显著性检测方法。大多数显著目标检测方法基于手工制作的局部特征[38]-[40]，全局特征[41]-[43]或两者[25]，[44]。对这些方法的完整调查超出了本文的范围，我们将读者引用到最近的调查论文[23]，[45]以获取详细信息。在这里，我们主要讨论基于深度学习架构的最近的显著目标检测方法。

2.1基于CNN的显著性模型

与使用手工制作功能的传统方法相比，基于CNN的方法几乎在计算机视觉的每个子领域（包括显著目标检测）都刷新了所有先前的最先进记录。在[46]，He等人通过利用分层对比度特征，提出了一种超像素级卷积神经网络架构。对于每个超像素尺度，将两个对比度序列馈入卷积网络以构建更高级的特征。最后，学习了不同的权重，将多尺度显著性图谱融合在一起，产生了更加有意义的权重。李等人[47]提出使用从DCNN提取的多尺度特征来导出显著图。通过将不同级别的图像分割馈送到DCNN并聚合多个所得特征，然后使用一堆全连接层来确定每个分段区域是否显著。王等人[48]通过整合局部估计和全局搜索来预测显著性图谱。深度神经网络首先用于学习局部补丁特征，以便为每个像素提供显著性值。然后，将局部显著性图谱，全局对比度和几何信息合并为另一个深度神经网络的输入，用于预测每个区域的显著性得分。在[49]中，赵等人提出了一种用于显著目标检测的多上下文深度学习框架。两个不同的CNN被设计为独立地捕获每个片段补丁的全局和本地上下文信息。最终的回归用于每个片段补丁的最终显著性决策。李等人[50]考虑了从CNNs和手工制作的特征中提取的高级语义特征。为了将它们组合在一起，利用单一的全连接的神经网络来估计每个查询区域的显著性.刘等人[36]设计了一个深度网络，其中产生了一个粗糙的预测图，然后是分层和逐步地预测图的详细信息。在[35]中，通过利用输入图像的对比度信息提出了深度对比度网络。它结合了像素级完全卷积流和分段空间池流。全连接的条件随机场（CRF）也用于进一步从对比网络中确定预测图。在[51]中，Wang等人建议利用循环完全卷积网络的优势。通过这样做，他们的经常性全卷积网络通过校正预测误差而允许通过先前的预测图来完成。使用语义分割数据的预训练策略被用于提取显著对象的通用表示。

2.2跳层结构

最近，由于CNN及其灵活的架构，在分段检测方面取得了很大进展。在这些通用结构中，跳层结构已被大多数研究人员广泛接受，这些研究人员具有融合多级和多尺度特征的能力。像Hypercolumn[37]和DCL[35]这样的早期跳层结构在各自的领域取得了突破。然而，它们只是简单地融合具有不同比例的跳层，以用于更高级的特征表示构建，如图2（a）所示。不同的是，FCN类结构[29]（见图2（b））考虑了一种更好的方法来利用多层特征，逐渐融合从上层到下层的特征。在[26]中，谢和Tu提出了一种对每个侧输出（跳层）进行深度监督的方案。除了将所有跳过层融合在一起之外，在每个侧输出之后添加一系列侧面损失以保留边缘信息的更多细节。图2（c）显示了这些架构的简化版本。已经考虑了多个多尺度特征，并且最近这些发展已经取得了显著的进展，对于没有明确处理尺度空间问题的通用CNN模型仍有很大的改进空间。

3深度监督与短连接

本节介绍了我们的方法和一些实现细节。在此之前，让我们首先看看观察结果。

3.1观察

正如大多数先前的工作中所指出的，良好的显著目标检测网络应该足够深，以便可以学习多级特征。此外，它应该具有不同步幅的多个阶段，以便从不同尺度学习更多固有特征。这种要求的一个很好的候选者可能是HED网络[26]，其中在VGGNet中每个阶段的最后一个卷积层之后添加了一系列输出层[28]。然而，实验结果表明，这种结构并不适合目标检测。图1提供了这样的说明。造成这种现象的原因有两个。一方面，需要均匀区域的显著性检测与需要特殊处理的边缘检测完全不同。一个好的显著性检测算法应该能够从图像中提取最具视觉特色的目标和区域，而不是简单的边缘信息。另一方面，从较低级产生的特征过于复杂，并且从较深输出层获得的显著性图不规则。

为了克服上述问题，我们提出了一种自上而下的方法，可以合理地结合低级和高级特征，以实现准确的显著性检测。以下小节专门用于详细描述所提出的方法。

3.2基于HED的显著性检测

为了更好地理解我们提出的方法，我们从标准的HED体系结构[26]以及它的扩展版本开始，这是这项工作的一个特例，用于显著的对象检测，并逐渐转移到我们提出的体系结构。

3.2.1 HED体系结构

在HED架构[26]中，引入了5个侧输出，每个侧输出直接连接到每个级的最后一个卷积层。令T = {（Xn，Zn），n = 1，...，N}表示训练数据集，其中Xn = {x（n）j，j = 1，...，| Xn |}是输入图像和Zn = {z（n）j，j = 1，...，|Xn|}，z（n）j∈[0,1]表示Xn的相应连续标签显著性图谱。结果，为了方便符号，我们省略了下标n，因为我们假设输入都是相互独立的。我们将所有标准网络层参数的集合表示为W.在不失一般性的前提下，进一步假设存在有M边输出。每个边输出都与一个分类器相关联，其中对应的权值可以表示为w =（w（1），w（2）,…,w（M））。
因此，HED的侧目标函数可以由

其中αm是第m侧损失的权重，l（m）side表示第m侧输出的图像级类平衡交叉熵损失函数[26]。此外，还添加了一个加权融合层，以更好地捕捉每一侧输出的优点。融合层的融合损失可表示为

其中f =（f1，...，fM）是融合权重，A（m）side是第m侧输出的激活，h（·）表示S形函数，σ（·，·）表示标签与融合预测之间的距离，即设置为图像级平衡的交叉熵损失[26]。因此，最终损失函数由

HED将每个侧输出连接到VGGNet[28]的每个级中的最后一个卷积层，分别为conv1_2，conv2_2，conv3_3，conv4_3，conv5_3.每个侧输出由单通道卷积组成卷积核大小为1×1的层，后跟上采样层，用于学习边缘信息。

3.2.2增强型HED架构

在本部分中，我们扩展了HED架构以进行显著目标检测。在我们的实验中，我们观察到更深的层可以更好地定位最显著的区域，因此基于HED的体系结构，我们将另一侧输出连接到VGGNet中的最后一个池化层（pool5）[28]。此外，由于显著目标检测是一种更加困难的任务检测方法，我们还可以在每个侧输出中使用不同卷积核通道和空间大小的其他卷积层，如图4所示。

我们使用与HED中相同的双线性插值操作进行上采样。我们还使用标准的交叉熵损失并计算训练图像中所有像素的损失函数X = {xj，j = 1，...，|X|}和显著性图谱Z = {zj，j = 1，...，|Z|}。我们的损失函数可以定义如下：

其中

表示第m侧输出中位置j的激活值的概率，可以通过h（a（m）j）计算，其中

`A（m）side = {a（m）j，j = 1，...，| X |}是第m侧输出的激活。与[26]类似，我们添加加权融合层来连接每一侧激活。在我们的例子中，融合层的损失函数可以表示为

其中`A（m）side是第m侧输出的新激活，M = M + 1，`σ（·，·）表示标签映射图与新融合预测之间的距离，其具有与方程(4)相同的形式。

原始HED和增强HED之间的相应的目标检测结果如图7所示。可以很容易地发现，已经实现了大约3％的改进。尽管有这样的改进，如图1所示，较浅的侧输出的显著性图谱仍然看起来很乱，而较深的侧输出也产生不规则的结果。此外，较深的侧输出确实可以定位显著的对象，但仍然丢失一些详细信息。

3.3短连接

我们的方法的洞察力是更深的侧输出能够找到显著区域的位置，但是以牺牲细节的损失为代价，而较浅的侧面输出侧重于低级别的特征，但缺乏全局信息。这些现象激励我们利用以下方式适当地组合不同的侧输出，以便可以提取最具视觉特色的对象。

3.3.1公式化

在数学上，我们在第m侧输出的新侧激活~R（m）side可以给出

其中rmi是从侧输出i到侧输出m（i> m）的短连接的权重。我们可以通过直接将rmi设置为0来退出一些短连接。新的侧损失函数和融合损失函数可以分别用

其中r = {rmi}，i> m。注意，这次~l（m）side表示我们在方程式（4）中定义的标准交叉熵损失。因此，我们新的最终损失函数可写为

3.3.2结构

新架构的主干是增强型HED，已在第3.2.2节中描述。图5说明了如何构建从侧输出4到侧输出2的短连接。侧输出3和4中的得分图首先通过简单的双线性插值进行上采样，然后在输出2的内部连接到原始线图。双线性插值的超参数可以根据上下文。由于显著目标检测是类不可知的任务，我们进一步加权前面的得分图，其已被图5中的虚线边界框包围，并引入另一个1×1卷积层作为侧输出2的新得分图。类似的方法可用于连接多个短连接的侧输出。例如，让我们假设3个短连接连接到侧输出2.在虚线边界框内将有4个得分图连接在一起。

我们的架构在功能上可以被认为是两个紧密相连的阶段，我们分别称之为显著性定位阶段和细节改进阶段。显著性定位阶段的主要焦点是寻找给定图像中最显著的区域。有关详细信息，我们将介绍一种自上而下的方法，即从较深的侧输出层到较浅的侧输出层的一系列短连接。这种考虑的原因是，在较深的边信息的帮助下，较低的侧输出既可以准确地预测显著的对象，又可以从较深的侧输出中重新获得结果，从而产生密集且准确的显著图。我们通过运行一系列消融实验并在下一节中显示相应的定量和视觉结果，进一步测试了我们提出的架构的有效性。

3.4实施细则

我们的网络基于公共可用的Caffe库[52]和公开的FCN[29]。如上所述，我们选择VGGNet [28]作为我们预先训练的模型，以便与其他作品进行更好的比较。

3.4.1推论

尽管引入了一系列短连接，但由较深和较浅侧输出产生的预测图的质量仍然不能令人满意。关于这个事实，在测试阶段，我们采用这些侧输出的更复杂的组合。令~Z1,…,~Z6分别表示每个侧输出的得分图。它们可以通过~Zm=h（~R（m）side）来计算。回想一下，在我们的例子中，h（·）是sigmoid函数。因此，可以通过

来计算融合输出映射图.

为了避免由最深和最浅侧输出的预测图质量差引起的负面影响，我们还使用~Z2，`Z3和`Z4来帮助进一步填写丢失的细节。因此，推理期间的最终输出映射可以表示为

令人惊讶的是，我们发现这样的组合确实有助于稍微改善结果。这是因为尽管融合输出图包含每个侧输出的聚合，但仍然遗漏了融合输出图中的一些详细信息。关于每个侧输出图的质量（见图1），我们决定使用等式（11）作为最终输出图。

3.4.2平滑方法

虽然我们的模型可以精确地找到图像中的显著对象，但是对于那些复杂的场景，仍然会丢失所得到的显著图的边界信息。为了进一步提高显著图的空间连续性和质量，我们采用全连接的条件随机场（CRF）方法[53]作为推理阶段的选择层。

CRF的能量函数由

给出.

其中x是像素的标签预测。为了使我们的模型更具竞争力，我们没有直接使用预测图作为一元项的输入，而是使用下面的一元项

其中`Si表示像素xi的归一化显著值，h（·）是S形函数，τ是尺度参数。成对电位定义为

其中，如果xi ≠ xj，则μ（xi，xj）= 1，否则为零。Ii和pi分别是像素值和xi的位置。参数w1，w2，σα，σβ和σγ控制每个高斯核的重要性。

在本文中，我们使用[53]，称为PerDenseCRF . 由于在我们的例子中只有两个类，所以我们直接使用推导出的每个像素的后验概率作为最终的显著性图。

3.4.3参数

在这项工作中使用的超参数包括学习率（1e-8），权重衰减（0.0005），动量（0.9），每个侧输出（1）的损失权重。我们使用全分辨率图像来训练我们的网络，并且将小批量大小设置为10.新添加的卷积层中的卷积核权重全部用随机数初始化。我们的融合层权重在训练阶段都用0.1667初始化。全连接CRF中参数使用验证集上的交叉验证来确定。在我们的实验中，τ设定为1.05，并且w1，w2，σα，σβ和σγ分别设定为3.0,3.0,60.0,8.0和5.0。

4实验和分析

在本节中，我们将介绍使用的数据集和评估标准，并报告我们提出方法的性能。此外，还进行了大量的消融实验，分析了我们方法中每个组件的重要性。

4.1数据集

我们评估我们对5个代表性数据集的方法，包括MSRA-B [43]，ECSSD [54]，HKU-IS [47]，PASCALS [55]和SOD [56]，[57]，所有这些都可以在线获得。这些数据集都包含大量图像以及分段良好的注释，并且最近已被广泛使用。 MSRA-B包含来自数百个不同类别的5,000张图像。由于其多样性和大量，MSRA-B已成为显著目标检测文献中使用最广泛的数据集之一。此数据集中的大多数图像只有一个显著对象，因此它逐渐成为评估处理简单场景的能力的标准数据集。ECSSD包含1,000个语义上有意义但结构复杂的自然图像。HKU-IS是另一个包含超过4000个具有挑战性的图像的大型数据集。此数据库中的大多数图像都与更多的图像对比。PASCALS包含850个挑战图像（每个由多个对象组成），所有这些都是从PASCAL VOC 2010分割数据集的验证集中选择的。我们还在SOD数据集上评估我们的系统，SOD数据集是BSDS数据集的子集。它包含300个图像，其中大多数具有多个显著对象。所有这些数据集都包含地面实况人类注释。为了保持评估的完整性并与现有方法进行公平比较，我们使用与[25]中相同的训练和验证集，并使用相同模型测试所有数据集。

4.2评估指标

我们使用三个普遍认可的标准度量（参见[23]，[23]，[41]，[58]）来评估我们的模型，包括PR曲线，F-度量和平均绝对误差（MAE）。对于给定的连续显著性图谱S，我们使用阈值将其转换为二元掩码B.然后将其查准率和查全率分别计算为precision = |B∩Z|/| B |和recall = |B∩Z|/| Z |，其中,|·|累积掩码中的非零条目。在给定数据集的显著性图上平均精度和召回值产生PR曲线。

为了全面评估显著性图的质量，使用F测量度量，其被定义为

根据之前的工作，为了强调精度值的重要性，我们选择β2为0.3。

设`S和`Z表示连续的显著性图谱和标签值，归一化为[0,1]。平均绝对误差（MAE）分数可以计算为

4.3消融分析

我们尝试了不同的设计选项和不同的短连接模式，以说明我们方法的每个组件的有效性。

4.3.1各种短连接模式

我们的结构如图3所示是如此灵活，可以被视为大多数现有体系结构的通用模型，如图2所示。

为了更好地展示我们提出的方法的优势，我们使用图2中列出的不同网络架构进行显著目标检测。除了Hypercolumns架构[37]和基于HED的架构[26]，我们使用我们提出的方法实现三种代表性模式。第一个公式如下，与图2(d)相似。

第二个模式表示如下，它比第一个要复杂得多。

最后一个模式，本文使用的模式，是由

定量结果如图7所示。从图7中可以看出，通过在每个侧输出中增加另一个侧输出和两个额外的卷积层，我们在F-测量的性能增益为2.5个点。此外，随着短连接的增加，我们的方法逐渐实现了更好的性能。虽然与增强型HED结构相比，使用模式1时没有获得性能增益，但是当我们转向模式2时，可以获得0.8点的增益。当考虑模式3时，也可以获得另外0.6点的增益。

4.3.2侧输出层的细节

我们进行了几次消融实验，以探索最佳的侧输出设置。每个实验中每个侧输出层的详细信息如图6所示。我们使用图7中的模式3作为我们的基线模型。为了突出不同参数的重要性，我们采用仅改变一个参数的变量控制方法。此外，所有结果都在PASCALS数据集上进行了公平比较。与第四个实验相比，第一个实验利用了更多的通道，但获得了相同的F-测量核。这表明每个侧输出的更多通道不能带来额外的性能增益。在第二个实验中，我们尝试减少1个卷积层，然后将其外部输出降低，从而使得性能降低1.5个点。尽管有小的减少，但足以说明在每个侧输出中引入两个卷积层的重要性。此外，我们尝试减少更深侧输出中的较大卷积核的大小。同样，这会导致F测量值略有下降。以上所有实验都表明我们使用的
侧输出设置是合理和合适的。

4.3.3上采样操作

在我们的方法中，我们使用网内双线性插值在每个侧输出中执行上采样。正如在[29]中实现的那样，我们使用固定反卷积的卷积核来实现具有不同步幅的侧输出。由于深侧输出层生成的预测图不够密集，我们也尝试使用“洞算法”使深侧输出中的预测图更加密集。我们采用与[35]中相同的技术。但是，根据我们的实验，使用这种方法会产生更差的性能。我们注意到，随着融合预测图变得更密集，一些非显著像素被错误地预测为显著像素，即使此后使用CRF。验证集上的F-测量分数下降了近1%。

4.3.4数据扩充

事实证明，数据增强在许多基于学习的视觉任务中非常有用。正如在大多数先前的工作中所做的那样，我们水平地扫描所有训练图像，导致增大的图像集比原始图像集大两倍。我们发现这种操作进一步将性能提高了0.5％以上。此外，我们还尝试将输入的图像裁剪为固定大小的321*321。然而，实验结果表明，这样的操作会使我们的性能下降0.5个百分点以上。这可能是因为具有完整大小的输入图像包含更丰富的信息，允许我们的网络更好地捕获显著对象。

4.3.5不同的主干

我们还通过将ResNet-101 [59]替换为VGGNet来扩展我们的工作。考虑到ResNet-101的网络结构，我们只使用图4中的底部5侧输出，它们分别连接到conv1，res2c，res3b3，res4b22和res5c。我们保持其他设置不变。我们在图10的底部显示结果。使用相同的训练集，平均每个数据集的F-测量得分进一步改善。

4.3.6提出的CRF模型

大多数先前的工作[35]，[53]仅使用负对数似然性，并且使用它们的CRF模型。与它们不同，我们引入了一个调制因子，旨在给出正面预测更多的信心，如公式（13）。这是合理的，因为大多数预测通过观察MAE分数是正确的。在我们的实验中，我们发现添加这样的调节因子对改善F测量分数几乎没有帮助，但能够进一步降低MAE评分（即减少错误预测）约0.3分。

4.4与现有技术的比较

我们将提出的方法与最近的7种基于CNN的方法进行了比较，包括MDF [47]，DS [60]，DCL [35]，ELD [50]，MC [49]，RFCN [51]和DHS [36]。还考虑了四种经典方法，包括RC [41]，CHM [61]，DSR [62]和DRFI [25]，它们已被证明是Borji等人[23]基准研究中的最佳方法。值得一提的是，虽然如图14所示，虽然更多的训练图像能够为我们带来更好的结果，但我们的结果仍然是来自
MSRAB数据集的2500个训练图像，以便与现有作品进行公平比较。

4.4.1视觉比较

为了展示我们提出的方法与上述方法相比的优越性，我们选择了来自不同数据集的多个代表性图像，这些图像包含各种困难环境，包括复杂场景，具有中心偏差的显著物体，具有不同尺寸的显著物体，低对比度在前景和背景等之间，以及在图8中显示视觉比较。我们手动将所选图像分成多个组，这些组由实线分开。我们还为每个组提供多个描述其属性的标签。考虑到所有情况，可以很容易地看出，我们提出的方法不仅仅是高亮度的显著区域，而且还会产生连贯的边界。值得一提的是，由于连接短，我们的方法为显著区域提供了更多的信心，在显著对象和背景之间产生了更高的对比度。更重要的是，它产生了连通区域，极大地增强了我们模型的能力。在图8所示的几乎所有情况下，这些优点都可以得到各种各样的理论，因此比其他方法更好。

4.4.2 PR曲线

我们在这里将PR方法与现有方法进行比较。在图9中，我们描绘了由我们的方法和先前的3种流行数据集上最先进的方法产生的PR曲线。很明显，基于FCN的方法基本上胜过其他方法。更重要的是，在所有基于FCN的方法中，我们方法的PR曲线在坐标的左上角尤其突出。我们还可以发现，当查全率得分接近1时，我们的方法的精确度要高得多，反映出我们的误报远低于其他方法。这也表明我们在短连接方面结合低级和高级特征的策略是必不可少的，这样得到的显著性图更接近于标签。

4.4.3 F-measure和MAE

我们还将我们的方法与现有方法在F-测量和MAE分数方面进行了比较。定量结果显示在图10中。可以看出，我们的方法在所有数据集上实现了最佳得分（最大F-测量和MAE），如图10所示。在ECSSD和SOD数据集上，我们的方法将当前最好的F-measure提高了1点，这是一个很大的差距，因为这些值已经非常接近理想值1。关于MAE评分，我们的方法在MSRA-B和PASCALS数据集上实现了超过1个点的减少。在其他数据集上，仍有至少0.09点的改进。这意味着我们案例中错误预测的数量明显少于其他方法。此外，我们还观察到所提出的方法在更加困难的数据集上表现得更好，例如HKUIS [47]，PASCALS [55]和SOD [56]，[57]，其中包含大量具有多个显著对象的图像。这表明我们的方法能够检测和分割最突出的对象，而其他方法通常在这些阶段中的一个阶段失败。

4.5显著性的存在

迄今为止，大多数现有的显著目标检测方法关注于存在至少一个显著对象的数据集。但是，在许多实际场景中，显著对象并不总是存在。因此，当应用于没有任何显著对象的场景时，基于上述假设的方法可能容易导致不正确的预测结果。为了解决这个问题，我们建议在网络中引入另一个分支来预测输入图像的显著性。新的分支由一个全局平均池化层组成，其后是多层感知器（MLP），并且在很多分类网络中都存在许多因素，并且存在许多分类网络[28]，[59]。全局平均池化层用于将具有不同形状的特征图转换为相同的大小，以便将得到的特征向量馈送到MLP中。与[28]，[32]一样，MLP在这里由三个全连接层组成，所有这些层都有1024个神经元，除了最后一个有两个神经元。softmax损失用于优化新分支。

在我们的实验中，我们使用与[63]中相同的训练集，其中包含5000个背景图像（即其中没有显著对象的图像）和来自MSRA10K的5000个图像[41]. 对于这些背景图像，突出的目标检测模块的梯度不允许反向传播，这样产生的预测图就不会受到干扰。我们发现这项操作至关重要。这里使用的超参数与我们的显著目标检测实验相同。我们训练我们的网络进行24,000次迭代，并在20,000次迭代时将学习率降低10倍。我们在三个数据集上测试我们的模型，包括JSOD [63]，MSRA-B [43]和ECSSD [54]。图11列出了与另外两个SSVM [63]和Wang等人[64]的工作相比较的结果。由于JSOD数据集（主要包含纯纹理）与其他两个数据集（MSRAB和ECSSD主要包含具有明显显著目标的图像）之间存在明显分离，因此所有数据集的分类结果已经饱和（非常接近理想值） 1” ）。因此，我们期待更多具有挑战性的实际情况，在不久的将来，世界各地的困难将得到发展。

4.6时间安排

我们的网络是完全卷积的，与大多数先前的显著目标检测方法相比，它可以非常快速地运行。在对包含2,500个训练图像的MSRA-B数据集进行培训时，我们的网络在12,000次迭代中花费的时间不到8小时。有趣的是，尽管10,000次迭代足以实现收敛，但我们发现另外2,000次迭代仍然在MAE中带来了小的性能提升。在推理阶段，我们需要大约0.08秒来处理大小为300×400的输入图像。这比以前的大多数作品都要快得多，比如DCL [35]，每张相同尺寸的图像需要1s以上。考虑到CRF层，还有0.4秒需要的。因此，对于尺寸为300*400的图像，我们的总时间成本不到0.5s.

5讨论

在本节中，我们对提出的方法进行了有用的分析，我们认为这将有助于研究人员开发更强大的方法。

5.1失败案例分析

我们方法的一些失败预测已经在图12中示出。可以看出，这些失败案例通常可以分为三种情况。第一个是基于cnn的显著目标检测方法的常见缺陷，在这种方法中显著目标不能完全分割出来，只遗漏了一小部分显著性目标。典型的例子是图12的第一行中所示的图像。在第二种情况下，不能提取显著对象的主体或预测非显著区域是显著的。如图12的中间一行所示，这种情况主要是由复杂的背景和非常低的对比度引起的。最后一种类型的故障情况是由透明物体引起的，如图12底部所示。虽然我们的方法可以检测到透明对象的某些部分，但是将完整对象分割出来仍然是非常困难的。

我们认为可以使用三种可能的补救方法解决上述问题。首先，假设解决方案是提供更多关于分段级别的先验知识，以便可以同时检测具有相似纹理或颜色的区域。由于CNN的内部结构，得分图中两个位置的相关性由前一层的可学习权重决定，使得该问题难以通过网络自身来解决。段级信息允许CNN纠正在环境1中那些错误的预测。此外，段级信息还可以作为后处理工具，通过简单的投票策略进一步细化预测的显著性地图。其次，需要展示更强大的训练数据，包括简单和复杂的场景。如图14所示，复杂场景下的训练数据可以大大提高简单和困难数据集的性能。另一个解决方案应该是设计更高级的模型，然后提取更强大的特征表示形式,来处理复杂结构的复杂输入[65]。

5.2基准训练集

训练集的选择是基于学习算法的一个重要方面。一个好的训练集肯定会提高学习能力，导致一个更有创造力的模型，可以在几乎所有场景中表现良好，即使有复杂的背景。然而，最近基于学习方法的训练集是不同的，并且这些工作都没有探索哪个训练集是最好的。图10列出了现有方法使用的不同训练集的细节。此外，对不同大小的不同数据集进行训练使得比较不公平。尽管训练图像的数量与性能增益不成比例，但是不同训练集的大小和质量打破了不同方法之间的公平比较。从图10中可以看出，有些人只使用了包含2500张图片的训练集，而有些人使用了大约10000张图片进行训练。

在本节中，我们试图深入分析基于我们所提出的方法使用不同数据集进行训练的效果。我们的目标是在现有数据集的基础上，为未来的研究提供一个新的、统一的、令人信服的、大规模的训练集。为此，我们进行了一些实验，并对6个广泛使用和公开可用的数据集进行了详尽的比较，如图13所示。请注意，所有训练列表都将公开提供。在测试阶段，我们使用最大F-测量分数和MAE分数作为度量指标。注意，由于大多数数据集包含5000多幅图像，因此每个模型都经过了16000次迭代的训练。一个例外是在ECSSD上经过6000次迭代训练的模型。

5.2.1数据集质量测量

为了更好地显示数据集的质量，每次我们训练其中一个，除了SOD数据集只有300个图像和PASCALS数据集低一致性行为，并对所有测试集进行测试。由于ECSSD包含的图像少于2,000个，因此所有图像都用于训练，因此不会留下任何图像进行测试。对于其余的大型数据集，如果提供了默认分割，那么它们将被直接使用。否则，我们将数据集按6:1:3的比例分别进行训练、验证和测试。

详细的实验结果如图13所示。由于MSRA-B和MSRA10K数据集之间存在较大的重叠，我们仅在MSRA-B上显示结果，而不是两者。根据图13所示，可以得出以下结论。首先，每个数据集的最佳结果总是通过对相应训练集的训练获得，并且该现象特别明显为DUT-OMRON。这可能是由于每个数据集中的图像特征引起的，使得不同的数据集有不同的特征。因此，我们认为直接比较在不同数据集上训练的不同模型所获得的性能值是不合适的(参见图13)。第二,有更多的训练图像不一定意味着更好的表现。从图13可以看出，ECSSD数据集上训练可以使我们在SOD数据集上获得最好的性能，尽管只有1000张训练图像。针对上述问题，折衷的解决方案是构建一个统一的、复合的、通用的数据集。

5.2.2超越单个数据集的训练

我们选择了图13中的4个数据集来构建比较。虽然MSRA10K比MSRA-B数据集大两倍以上，但与MSRA-B数据集训练相比，训练有素的模型具有竞争力。在这里，我们只保留MSRA-B进行训练，因为它具有高质量的图像和注释。因此，在图14的第二列中总共显示了11种不同的组合。在测试阶段，我们还使用上述六种测试组进行公平比较。

从图14的结果来看，后续的结论可以用来描述。首先，大范围的设置并不一定意味着更高的测试性能。通过比较方案3和其他方案可以观察到这种现象。尽管只有3,500个训练图像，但这种组合比具有6,000多个训练图像的组合表现更好。确实，注释的质量可能是导致这种问题的重要原因。但是，这种考虑超出了本文的范围。这里的所有结论都是基于我们使用的每个数据集都具有良好分段的注释的假设。

其次，与单个数据集相比，数据集的不适当组合可能导致更差的性能。通过比较方案4和0，可以发现尽管在HKU-IS，PASCALS和SOD数据集上具有更好的性能，但在MSRA-B和DUT-OMRON数据集上进行测试时仍然会略有下降。通过这些实验，我们强调，具有大量图像的训练集可能无法带来更好的性能提升。一个好的训练集应该考虑尽可能多的案例。但是，由于现有数据集的多样性，很难获得能够表现出所有现有数据集之间一致性的令人信服的数据集。关于显著目标检测的当前状态，我们建议使用图14中的方案11作为公平比较的训练集，并确定由不同训练集引起的性能偏差。显著目标检测中的另一个严重问题是大多数数据集不再具有挑战性。显而易见的是，由于现有数据集的性能接近，不同模型之间的差异难以区分。我们希望具有复杂场景和高度一致性的更具挑战性的数据集将在未来展现出来。

6 结论

在本文中，我们提出了一个深度监督的显著目标检测网络。我们不是将损失层直接连接到每个阶段的最后一层，而是在较浅和较深的输出层之间引入一系列短连接。利用这些短连接，每个输出层的激活都能够突出显示相应的物体并准确定位其边界。全连接的CRF也用于纠正错误的预测并进一步改善空间一致性。我们的实验表明，这些机制可以在各种图像上产生更准确的显著性图。我们的方法显著地推进了最先进的技术，并且能够在完全复杂的区域内捕获显著区域，这进一步证明了所提出的架构的优点。

22.Deeply Supervised Salient Object Detection with Short Connections