Saliency Detection via Graph-Based Manifold Ranking

基于图的流形排序的显著性检测

摘要

大多数现有的自下而上方法基于其在局部上下文或整个图像内的对比度来测量像素或区域的前景显著性，而一些方法侧重于分割出背景区域并由此突出显示对象。我们不是考虑显著物体与周围区域之间的对比，而是以不同的方式考虑前景和背景线索。我们通过基于图的流形排序对图像元素（像素或区域）与前景线索或背景线索的相似性进行排序。图像元素的显著性是基于它们与给定种子或查询的相关性来定义的。我们将图像表示为具有超像素作为节点的闭环图。基于关联矩阵，基于与背景和前景查询的相似性对这些节点进行排序。显著性检测以两阶段方案进行，以有效地提取背景区域和前景显著对象。两个大型基准数据库的实验结果表明，所提出的方法在准确性和速度方面与最先进的方法相比表现良好。我们还创建了一个更加困难的基准数据库，其中包含5,172个图像，用于测试我们提出的显著性模型，并使用此文章公开提供此数据库，以便在显著性领域进一步研究。

引言

显著性检测的任务是识别场景中最重要和信息量最大的部分。它已被应用于许多视觉问题，包括图像分割[11]，物体识别[28]，图像压缩[16]，基于内容的图像检索[8]等。显著性方法通常可以分为自下而上或自上而下的方法。自下而上的方法[1]，[2]，[6]，[7]，[9] - [12]，[14]，[15]，[17]，[21]，[24]，[25]，[27]，[32]，[33]，[37]是数据驱动和预先注意的，而自上而下的方法[23]，[36]是任务驱动的，需要有阶层的监督学习标签。我们注意到，已经开发了用于眼睛定位预测的显著性模型[6]，[14]，[15]，[17]，[19]，[25]，[33]和显著目标检测[1]，[2]，[7]，[9]，[23]，[24]，[32]。前者侧重于识别自然图像上的一些人类固定位置，这对于理解人类的注意力非常重要。后者是准确地检测显著对象应该在哪里，这对于许多高级视觉任务是有用的。在本文中，我们关注自下而上的显著目标检测任务。

显著目标检测算法通常生成边界框[7]，[10]，二值前景和背景分割[12]，[23]，[24]，[32]或显示每个像素显著性可能的显著性图。刘等人[23]通过训练条件随机场以组合一组新颖特征来提出二元显著性估计模型。王等人[32]在统一的能量最小化框架中分析多个线索，并使用基于图形的显著性模型[14]来检测显著的对象。在[24]中Lu等人开发分层图模型并利用凹度上下文来计算节点之间的权重，从中对图进行双分区以进行显著目标检测。另一方面，Achanta等人[1]基于其与整个图像的颜色对比来计算每个像素的显著性似然。Cheng等[9]考虑全局区域对整个图像的对比以及跨区域的空间关系来提取显著性图。在[11]中Goferman等提出一种上下文感知显著性算法，以基于人类视觉注意力的四个原理来检测表示场景的图像区域。特征的中心和周围分布的对比度是基于显著目标检测的Kullback-Leibler散度计算的[21]。谢等人[35]通过利用中低层次线索，提出了贝叶斯框架内自下而上显著性的新模型。孙等人[30]通过引入边界和软分割来改进谢的模型。最近，Perazzi等人[27]表明可以使用高维高斯滤波器以统一的方式表达完整的对比度和显著性估计。在这项工作中，我们为每个输入图像生成一个全分辨率显著图。

大多数上述方法通过测量整个图像上的局部中央-围绕对比度和特征的稀有度来测量显著性。相反，Gopalakrishnan等人[12]将目标检测问题表示为图形上的二元分割或标记任务。最显著的种子和几个背景种子通过完整图表上随机游走的行为来识别ķ-正则化图。然后，使用半监督学习技术来推断未标记节点的二进制标签。最近，提出了一种利用背景先验的方法用于显著性检测[34]。主要观察是一对背景区域之间的距离短于来自显著对象的区域和来自背景的区域的距离。节点标记任务（显著对象或背景）被公式化为基于该标准的能量最小化问题。

我们观察到背景通常呈现与四个图像边界中的每一个的局部或全局外观连通性，并且前景呈现外观连续性和一致性。在这项工作中，我们利用这些线索来计算基于超像素排序的像素显著性。对于每个图像，我们构造一个闭环图，其中每个节点都是一个超像素。我们将显著性检测建模为流形排序问题，并提出了用于图形标记的两阶段方案。图1显示了所提算法的主要步骤。在第一阶段，我们利用先验的边界[13，22],通过使用图像每一侧的节点作为标记,进行背景查询。从每个标记结果中，我们基于它们与那些查询的相关性（即，排序）来计算节点的显著性作为背景标签。然后将四个标记的图集成以生成显著性图谱。在第二阶段，我们在第一阶段对结果显著图进行二值分割，并将标记的前景节点作为显著查询。

基于每个节点与最终图谱的前景查询的相关性来计算每个节点的显著性。

为了完全捕获内部图形结构信息并在图形标注中结合局部分组线索，我们使用流形排序技术来学习排序函数，这对于学习最佳关联矩阵是必不可少的[20]。与[12]不同，所提出的具有流形排序的显著性检测算法仅需要来自一个类的种子，其作用是边界先验或前景提示初始化。边界先验被提出灵感来自最近的图像人类固定作品[31]，这表明人类倾向于凝视图像的中心。这些先验也被用于图像分割和相关问题[13]，[22]，[34]。相比之下，半监督方法[12]需要背景和显著种子，并生成二进制分割。此外，很难确定显著种子的数量和位置，因为它们是通过随机游走产生的，特别是对于具有不同显著对象的场景。这是图标记的已知问题，其中结果对所选种子敏感。在这项工作中，所有背景和前景种子都可以通过背景先验和排序背景查询（或种子）轻松生成。由于我们的模型结合了从整个图像中提取的局部分组提示，所提出的算法生成明确定义的显著对象边界并均匀地突出显示整个显著区域。

2.基于图的流行排序

基于图的排序问题描述如下：给定节点作为查询，其余节点基于它们与给定查询的相关性进行排序。目标是学习排序函数，该函数定义未标记节点和查询之间的相关性。

2.1流行排序

在[39]中，提出了一种利用数据（如图像）的固有流形结构进行图形标记的排序方法。给定一个数据集X={x1,...,xl,xl+1,..., xn}∈ Rm×n,一些数据点标记为查询，其余数据点需要根据它们与查询的相关性进行排序。令f：X→Rn表示排序函数，其将排序值fi分配给每个点xi，并且f可以被视为向量f = [f1，...，fn]T.设y = [y1，y2，...，yn]T表示指示向量，其中如果xi是查询则yi = 1，否则yi = 0。接下来，我们在数据集上定义图G =（V，E），其中节点V是数据集X并且边E通过关联矩阵W = [wij]n×n加权。给定G，度矩阵是D = diag {d11,...,dnn}，其中dii =∑jwij。类似于PageRank和谱聚类算法[5,26]，通过求解以下优化问题来计算查询的最佳排序：

其中参数μ控制平滑度约束（第一项）和拟合约束（第二项）的平衡。也就是说，良好的排序函数不应该在附近点之间变化太多（平滑约束），并且不应该与初始查询赋值（拟合约束）相差太多。通过将上述函数的导数设置为零来计算最优解。结果排序函数可写为：

其中I是单位矩阵，α=1/（1+μ），S是归一化拉普拉斯矩阵，S=D-1/2WD-1/2。

排序算法[39]源于半监督学习的分类工作[38]。从本质上讲，多元排序可以被视为一类分类问题[29]，其中只需要正面例子或反面例子。我们可以通过使用方程式2中的非归一化拉普拉斯矩阵来获得另一个排序函数：

在实验中，我们比较了方程2和方程3的显著性结果，后者取得了更好的性能(见图8)，因此，我们在实验中采用方程3。

2.2显著性测量

给定表示为图形和一些显著查询节点的输入图像，每个节点的显著性被定义为由等式3计算的排序分数，其被重写为f* = Ay以便于分析。矩阵A可以被认为是学习的最佳关联矩阵，其等于（D-αW）-1。第i个节点的排序得分f*（i）是第i行的A和y的内积。因为y是二进制指示符向量，所以f*（i）也可以被视为第i个节点与所有查询的相关性的总和。

在传统的排序问题中，查询是手动标记的。然而，由于所提出的算法选择了显著性检测的查询，其中一些可能是不正确的。因此，我们需要为每个查询计算置信度（即显著性值），其被定义为由其他查询（除了其自身）排序的排序得分。为此，我们在通过等式3计算排序分数时将A的对角元素设置为0。我们注意到这个看似微不足道的过程对最终结果有很大影响。如果我们计算每个查询的显著性而不将A的对角元素设置为0，则其在f*中的排序值将包含该查询与其自身的相关性，这是毫无意义的并且通常异常大，从而严重削弱其他查询对排序分数的贡献。最后，我们在给出显著查询时使用归一化排序得分F¯*,当给出背景查询时使用 1 - f¯*。

3.图形构造

我们构建单层图G=（V，E）如图2，其中V是一组节点和E是一组无向边。在这项工作中，每个节点都是由SLIC算法[3]生成的超像素。由于相邻节点可能具有相似的外观和显著性值，因此我们使用一个ķ -利用空间关系的正则图。首先，每个节点不仅连接到与其相邻的节点，还连接到与其相邻节点共享公共边界的节点（参见图2）。通过扩展节点连接的范围具有相同的程度ķ，我们有效地利用局部平滑线索。其次，我们强制连接图像四边的节点，即任何一对边界节点都被认为是相邻的。因此，我们将该图表示为闭环图。这种闭环约束显著改善了所提出方法的性能，因为它倾向于减少类似超像素的测地距离，从而改善了排序结果。图3显示了一些示例，其中排序结果有和没有这些约束。我们注意到，当

显著对象出现在图像边界附近或某些背景区域不相同时，这些约束很有效。

由于边缘的约束，很明显构造的图形是稀疏连接的。也就是说，关联矩阵的大多数元素W是零。在这项工作中，两个节点之间的权重由

其中ci和cj表示对应于CIELAB颜色空间中的两个节点超像素的平均值，并且σ是控制权重强度的常数。权重是根据颜色空间中的距离计算的，因为它已被证明在显著性检测中是有效的[2,4]。

通过对构建的图上的节点进行排序，等式3中的逆矩阵（D-αW）-1可以被视为完整的关联矩阵，即，图上的任何节点对之间存在非零相关值。该矩阵自然地捕获空间关系信息。也就是说，当空间距离减小时，节点之间的相关性增加，这是显著性检测的重要线索[9]。

4.两阶段显著性检测

在本节中，我们详细介绍了使用背景和前景查询排序的自下而上显著性检测的两阶段方案。

4.1 使用背景查询排序

基于视觉显著性早期作品的注意理论[17]，我们使用图像边界上的节点作为背景种子，即标记数据（查询样本）来对所有其他区域的相关性进行排序。具体来说，我们使用边界先验构建四个显著图，然后将它们整合到最终映射图中，这被称为分离/组合（SC）方法。

以顶部图像边界为例，我们将此侧的节点用作查询，将其他节点用作未标记的数据。因此，给出指示符向量y，并且基于f*中的等式3对所有节点进行排序，这是一个N维向量（N是图的节点总数）。这个向量中的每个元素都表示节点与背景查询的相关性，它的补充是显著性度量。我们将此向量标准化为0到1之间的范围，并使用顶部边界先验显著性，St可以写成：

其中索引i是图上的一个超像素节点，f*表示归一化向量。

类似地，我们使用底部，左侧和右侧图像边界作为查询来计算其他三个映射图谱Sb，S1和Sr.我们注意到，显著性图谱是用不同的指标向量y计算的，而权重矩阵W和度矩阵D是固定的。也就是说，我们需要为每个图像计算一次矩阵的逆（D-αW）。由于超像素的数量很小，因此矩阵在方程式中是逆的。可以有效地计算等式3的逆矩阵。因此，四个地图的总计算负荷很低。通过以下过程整合四个显著性图谱：

使用SC方法生成显著性图有两个原因。首先，不同侧面的超像素通常不相似，应该具有较大的距离。如果我们同时使用所有边界超像素作为查询（即，指示这些超像素是相似的），则标记结果通常不太理想，因为这些节点不可压缩（参见图4）。请注意我们在第3节中使用的测地距离可以认为是弱标记的，因为只涉及几个超像素（即，只有与侧面具有低色距的超像素被认为是相似的），而具有所有超像素的情况可以被认为是强标记的（即，所有节点来自双方被认为是相似的）。其次，它减少了不精确查询的影响，即，标签的显著性节点被无意中选择为背景查询。如图5的第二列所示，使用所有边界节点生成的显著性图很差。由于标记结果不精确，具有显著对象的像素具有低显著性值。然而，由于物体通常是紧凑的“东西”（例如人或汽车）而不是松散的“东西”（例如草或天空），因此它们很少占据图像的三面或四面，所以建议的SC方法确保至少两个显著图是有效的（图5的第三列）。通过整合四个显著性图，可以识别对象的一些显著部分（尽管整个对象未被均匀地突出显示），这为第二阶段检测过程提供了足够的线索。

虽然显著对象的大部分区域在第一阶段突出显示，但某些背景节点可能无法被充分抑制（参见图4和图5）。为了缓解这个问题并改善结果，特别是当对象出现在图像边界附近时，通过使用前景查询进行排序来进一步改进显著性图。

4.2 使用前景查询排序

第一阶段的显著性映射是使用自适应阈值的二进制分段（即，显著前景和背景），其便于选择前景显著对象的节点作为查询。我们期望所选择的查询尽可能多地覆盖显著对象区域（即，具有高召回率）。因此，阈值被设置为整个显著图上的平均显著性。

一旦给出了显著的查询，就会出现一个使用等式3的指标向量y形成计算排序向量f*。如在第一阶段中执行的那样，排序向量f*在0和1的范围之间归一化，以形成最终的显著图

其中索引i表示图上的超像素节点，`f*表示归一化向量。

我们注意到在这个阶段可能会错误地选择节点作为前景查询。尽管有一些不精确的标记，但是如图6所示，所提出的算法可以很好地检测到显著的对象。这可以解释如下。显著目标区域通常相对紧凑（在空间分布方面）并且外观均匀（在特征分布方面），而背景区域则相反。换句话说，目标内相关性（即，显著对象的两个节点）在统计上远大于目标背景和背景内相关性，这可以从关联矩阵A中推断出来。为了显示这种现象，我们计算了从具有标签[2]的数据集中采样的300个图像中的每一个A中的平均对象内、背景内和对象-背景相关性值，如图7所示。因此，对象节点与标签显著查询的相关性值的总和远大于对所有查询的背景节点的相关性值的总和。也就是说，可以有效地抑制背景显著性（图6的第四列）。类似地，尽管图5的第一阶段之后的显著性图不精确，但是在第二阶段中的前景查询之后，显著性图可以很好地检测到显著对象。算法1总结了所提出的显著目标检测算法的主要步骤。

5.实验结果

我们在三个数据集上评估所提出的方法。第一个是MSRA数据集[23]，其中包含5,000个图像，其中显著区域的标签由边界框标记。第二个是MSRA-I000数据集，它是MSRA数据集的一个子集，其中包含[2]提供的1,000个图像，其中包含用于显著对象的精确的人工标记掩模。最后一个是提议的DUT-OMRON数据集，其中包含5个用户的5,172个精心标记的图像。有关此数据集的源图像，标签和详细说明，请访问http://ice.dlut.edu.cn/lu/dut-omron/homepage.htm。我们将我们的方法与十四种最先进的显著性检测算法进行比较：IT[17]，GB[14]，MZ [25]，SR[15]，AC[1]，Gof[11]，FT[2]，LC[37]，RC[9]，SVO[7]，SF[27]，CB [18]，GS_SP[34]和XIE[35]方法。

实验设置：我们设置超像素节点的数量N=200在所有的实验中。该算法有两个参数:等式4中的边权重σ和等式3中的平衡权重α。参数σ控制一对节点之间的权重强度，参数α平衡了流形排序算法正则化函数中的平滑约束和拟合约束。这两个参数是根据经验选择的，σ2= 0.1和α= 0.99，对于所有的实验。

评估指标：我们通过精确度，召回率和F-度量来评估所有方法。精度值对应于正确分配给提取区域的所有像素的显著像素的比率，而召回值被定义为检测到的显著像素相对于标签数的百分比。与之前的工作类似，通过使用0到255范围内的阈值对显著性图进行二值化来获得精确度曲线.F度量是通过精度和召回的加权谐波计算的整体性能测量：

我们设置β2= 0.3来强调精度[2]。

5.1 MSRA-I000

我们首先详细研究了所提算法的设计选项。分析使用归一化（等式2）和非归一化（等式3）拉普拉斯矩阵进行排序的排序结果。图8（a）显示具有非归一化拉普拉斯矩阵的排序结果更好，并且在所有实验中使用。接下来，我们展示了所提出的图构建方案的优点。我们为图上的四种节点连接计算了四条PR曲线：闭环约束而没有扩展节点的范围 ķ-正则图，没有闭环约束和ķ-无正则图，没有闭环约束和 ķ-带正则图和闭环约束ķ-正规图。图8（b）显示了使用闭环约束和ķ-正则化图表表现最佳。还评估了SC方法在第一阶段中的效果。图8（c）显示我们使用从不同边界先验生成的显著图集成的方法在第一阶段表现更好。我们进一步比较了所提算法的每个阶段的性能。图8（d）表明使用前景查询的第二阶段通过背景查询进一步改善了第一阶段的性能。

我们评估了所提出的方法对十四种最先进的自下而上显著性检测方法的性能。图9显示了所有方法的PR曲线。我们注意到，所提出的方法优于SVO [7]，Gof[11]，CB[18]和RC[9]，它们是最近基准研究中显著性检测的最佳性能方法[4]。此外，所提出的方法明显优于GS_SP[34]方法，该方法也基于边界先验。我们还使用[2]中提出的自适应阈值计算查准率、查全率和F-度量，定义为图像平均显著性的两倍。图9的最右边的图表示所提出的算法实现了最高精度和F测量值。总体而言，使用三个度量的结果表明，所提出的算法优于最先进的方法。图10显示了评估方法的一些显著性图。我们注意到，所提出的算法统一突出显著区域并保留比其他方法更精细的对象边界。

5.2 MSRA

我们进一步评估了在MSRA数据集上提出的算法，其中图像由不同用户用九个边界框注释。要计算查准率和查全率，我们首先将矩形拟合到二元显著性图，然后使用输出边界框进行评估。与MSRA-1000数据库上的实验类似，我们还使用平均显著性的两倍阈值对显著性图进行二值化，以计算查准率、查全率和F-测量值。图11显示了所提出的模型在这个大型数据集上的性能优于其他方法。我们注意到Gof [11]和FT [2]方法具有极大的查全率，因为它们的方法倾向于选
择大的注意力区域，但代价是低精度。

5.3 DUT - OMRON

我们在DUT-OMRON数据集上测试所提出的模型，其中图像由五个用户用边界框注释。类似于MSRA数据库上的实验，我们还计算了二元显著图的矩形，然后通过固定阈值和自适应阈值方法来评估我们的模型。图12显示建议的数据集更具挑战性（所有模型执行得更差），从而为未来工作的改进提供了更多空间。

5.4 运行

基于具有Intel双核i3-2120 3.3 GHz CPU和2GB RAM的计算机，表1列出了在MSRA-1000数据库上使用matlab实现的当前最佳性能方法的平均运行时间。我们的运行时间远远快于其他显著性模型。具体来说，SLIC算法[3]的超像素生成花费0.165秒（约64％），实际显著性计算花费0.091秒。所提算法的MATLAB实现可在http://ice.dlut.edu.cn/lu/1u/publications.html或http://faculty.ucmerced.edu/mhyang/pubs.html获得。

6.结论

我们提出了一种自下而上的方法，通过图表上的流形排序来检测图像中的显著区域，其结合了局部分组线索和边界先验。我们采用两阶段方法，使用背景和前景查询进行排序，以生成显著性图。我们在大型数据集上评估所提出的算法，并通过与十四种最先进的方法进行比较来展示有希望的结果。此外，所提出的算法在计算上是有效的。我们未来的工作将侧重于将多个功能与应用程序集成到其他视觉问题中。

20.Saliency Detection via Graph-Based Manifold Ranking