显著性论文阅读Saliency Detection with Recurrent Fully Convolutional Networks

摘要

深度网络已经被证明可以编码高级语义特征,并在显着性检测中提供卓越的性能。 在本文中,我们通过使用循环完全卷积网络(RFCN)开发新的显着性模型更进一步。此外,循环体系结构使我们的方法能够通过纠正其先前的错误自动学习优化显着性映射。 为了训练具有多个参数的这样的网络,我们提出了使用语义分段数据的预训练策略,其同时利用对分段任务的强有力的监督以进行更好的训练,并使网络能够捕获对象的通用表示以用于显着性检测。 通过广泛的实验评估,我们证明了所提出的方法优于最先进的方法,并且所提出的循环深度模型以及预训练方法可以显着提高性能。

1.简介

显着性检测一般可分为两个子类别:显着对象分割[12,38,16]和眼睛固定检测[26,7]。 本文主要关注显着对象分割,旨在突出图像中最引人注目和吸引眼球的对象区域。 它已被用作预处理步骤,以促进广泛的视觉应用,并越来越受到社区的关注。 尽管取得了很大进展,但开发能够处理现实世界不利情景的有效算法仍然是一项非常具有挑战性的任务。
大多数现有方法通过手工制作的模型和启发式显着性先验来解决显着性检测问题。例如,对比度先验制定显着性检测作为中心周围的对比度分析,并捕获以全球稀有为特征或从邻居本地突出的显着区域。
另外,边界先前将边界区域视为背景,并通过将背景信息传播到其余图像区域来检测前景对象。虽然这些显着性先验已被证明在某些情况下是有效的(图1第一行),但它们不足以发现复杂场景中的显着物体(图1第二行)。此外,基于显着性优先的方法主要依赖于低级手工制作的特征,这些特征无法捕获对象的语义概念。如图1的第三行所示,在某些情况下,高级语义信息在区分前景对象与具有相似外观的背景中起着重要作用。
最近,深度卷积神经网络(CNN)在许多视觉任务中实现了创纪录的性能,例如,图像分类[15,28],目标检测[5,27],目标跟踪[32,33],语义分割[22,21]等。现有方法表明深层CNN也可以有利于盐水检测,并且非常有效。通过准确识别语义上突出的对象来处理复杂场景(图1第三行)。虽然已经实现了更好的性能,但是现有的基于CNN的显着性检测方法仍然存在三个主要问题。首先,大多数基于CNN的方法完全抛弃了显着在以前的工作中有效的显着性先验。其次,CNN仅考虑局部图像块的有限尺寸来预测像素的显着性标签。它们大多不能强制执行空间一致性,并且可能不可避免地做出不正确的预测。但是,对于前馈架构,CNN很难完善输出预测。最后,显着性检测主要被公式化为二元分类问题,即前景或背景。与具有数千个类别的图像分类任务相比,二进制标签的监督相对较弱,无法有效地训练具有大量参数的深度CNN。
为了缓解上述问题,我们研究了用于显着性检测的循环完全卷积网络(RFCN)。在每个时间步长中,我们通过RFCN向前馈送输入RGB图像和显着性先验图,以获得预测显着图,该预测显着图又用作下一时间步中的显着性先前图。通过结合指示潜在显着区域的显着性先验来初始化第一时间步骤中的先前映射。我们的RFCN架构与现有的基于CNN的方法相比具有两个优势:a)利用显着性先验使训练深度模型更容易并且产生更准确的预测; b)与前馈网络相反,我们的RFCN网络的输出作为反馈信号提供,使得RFCN能够通过纠正其先前的错误来改进显着性预测,直到在最后时间步骤中产生最终预测。为了训练RFCN进行显着性检测,开发了一种新的预训练策略,该策略利用语义分割数据的丰富属性信息进行监督。图2演示了所提出的RFCN模型的架构概述。
总之,这项工作的贡献是三倍。 首先,我们提出了一种使用循环完全卷积网络的显着性检测方法,该方法能够改进先前的预测。 其次,将显着性先验纳入网络以促进培训和推理。 第三,我们使用语义分割数据设计用于显着性检测的RFCN预训练方法,以利用来自多个对象类别的强监督并捕获通用对象的内在表示。 所提出的显着性检测方法产生更准确的显着性图,并且在四个基准数据集上具有相当大的优势,优于最先进的方法。

2.相关工作

现有的显着性检测方法可以主要分为两类,即手工制作的模型或基于学习的方法。大多数手工制作的方法可以追溯到特征整合理论[30],其中选择重要的视觉特征并将其组合以模拟视觉注意力。后来,Itti等人。 [8]建议通过颜色,强度和方向特征的中心 - 环绕对比度来测量显着性。谢等人。 [34]在贝叶斯框架中制定显着性检测,并通过似然概率估计视觉显着性。在[3]中,通过考虑用于显着性测量的图像像素的外观相似性和空间分布来开发软图像抽象。同时,背景优先也被许多手工制作的模型[36,10,38,6]常用,其中基本假设是图像边界区域更可能是背景。然后可以通过使用边界区域作为背景种子的标签传播来识别突出区域。
手工制作的显着性方法既高效又有效,但在处理复杂场景时却不够稳健。最近,基于学习的方法受到了社区的更多关注。这些方法可以通过在具有注释的图像数据上训练检测器(例如,随机森林[12,19],深度网络[31,37,17]等)来自动学习检测显着性。其中,基于深度网络的显着性模型表现出非常有竞争力的表现。例如,Wang等人。 [31]建议分别通过训练DNN-L和DNN-G网络进行局部估计和全局搜索来检测显着区域。在[16]中,通过采用周围区域的多尺度CNN特征,训练完全连接的网络以回归每个超像素的显着度。这两种方法进行逐片扫描以获得输入的显着图。图像,这是非常计算昂贵的。此外,他们直接训练显着性检测数据集的深层模型,忽略二元标签监管不力的问题。为了解决上述问题,Li等人。 [17]建议使用在多任务学习框架下训练的完全卷积网络(FCN)来检测显着性。虽然具有相似的精神,但我们的方法在三个方面与[17]有显着的不同。首先,显着性先验被用于网络训练和推理,在[17]中被忽略。其次,我们设计了一种能够改进生成的预测的循环体系结构,而不是[17]中的前馈体系结构。第三,我们的深度网络预训练方法允许使用分割数据学习特定于类的特征和通用对象表示。相比之下,[17]仅针对区分不同类别的对象的任务训练网络分割数据,这与显着对象检测的任务本质上不同。
递归神经网络(RNN)已应用于许多视觉任务[20,25]。我们方法中的循环体系结构主要用作纠正先前错误的细化机制。与强烈依赖上一步隐藏单元的现有RNN相比,RFCN仅将最后一步的最终输出作为先验。因此,它需要更少的步骤来收敛并且更容易训练。

3.循环网络的显着性预测

用于图像分类的传统CNN包括卷积层,接着是完全连接的层,其采用固定空间大小的图像作为输入,并产生指示输入图像的类别的标签矢量。 对于需要空间标签的任务,例如分割,深度预测等,一些方法以逐个补丁的扫描方式应用CNN进行密集预测。 然而,补丁之间的重叠导致冗余计算,因此显着增加了计算开销。 与现有方法不同,我们考虑完全卷积网络(FCN)架构[22]用于我们的循环模型,该模型生成具有相同输入图像大小的预测。 在3.1节中,我们正式引入了FCN网络进行显着性检测。第3.2节介绍了基于RFCN网络的显着性方法。 最后,我们将在3.3节中展示如何训练RFCN网络进行显着性检测。

3.1用于显著性目标检测的全卷积网络

作为CNN的构建块的卷积层是在平移不变的基础上定义的,并且具有跨不同空间位置的共享权重。 卷积层的输入和输出都是称为特征映射的3D张量,其中输出特征映射是通过将输入特征映射上的卷积核卷积为

其中X是输入要素图; W和b分别表示内核和偏差; * s表示带有步幅的卷积运算。 结果,输出特征映射fs(X; W; b)的分辨率被下采样s。 通常,卷积层与最大池化层和非线性单元(例如,ReLU)交织,以进一步改善平移不变性和表示能力。 然后可以将最后一个卷积层的输出特征映射馈送到完全连接的层的堆栈中,这些层丢弃输入的空间坐标并为输入图像生成全局标签(参见图3(a))。

猜你喜欢

转载自blog.csdn.net/qq_33964352/article/details/84451179