23.Deep Networks for Saliency Detection via Local Estimation and Global Search

Deep networks for saliency detection via Local Estimation and Global Search

摘要

本文提出了一种将局部估计和全局搜索相结合的显著性检测算法。在局部估计阶段,我们通过使用深度神经网络(DNN-L)来检测局部显著性,该神经网络学习局部块特征以确定每个像素的显著性值。通过探索高级对象概念,进一步确定估计的局部显著性图。在全局搜索阶段,将局部显著性图与全局对比度和几何信息一起用作描述一组对象候选区域的全局特征。训练另一个深度神经网络(DNN-G)以基于全局特征预测每个对象区域的显著性得分。最终显著图由显著目标区域的加权和生成。我们的方法提出了两个有趣的见解。首先,通过监督方案学习的局部特征可以有效地捕获局部对比度,纹理和形状信息以用于显著性检测。其次,不同的全局显著性线索之间的复杂关系可以通过深层网络捕获并主要利用而不是启发式。几个基准数据集的定量和定性实验表明,我们的算法对最先进的方法表现出色。

 

1.引言

显著性检测旨在识别图像中最重要和最显著的对象区域,近年来越来越受到关注。作为预处理步骤,它可以有效地关注与当前任务相关的有趣图像区域,并且广泛地促进计算机视觉应用,例如分割,图像分类和压缩,仅举几个例子。虽然取得了很大进展,但仍然是一个具有挑战性的问题。

现有方法主要通过计算模型以自下而上的方式利用局部或全局视图来形成显著性检测。局部方法[13,25,19,39]计算局部环境中的颜色,纹理和边缘取向通道的中心 - 环绕差异,以捕获局部突出其周围环境的区域。尽管在生物学上是合理的,但局部模型往往缺乏全局信息,并且倾向于突出显著对象的边界而不是内部(见图1(c))。相比之下,全局方法[1,24,29]将整个图像考虑在内以预测以整体稀有性和唯一性为特征的显著区域,从而帮助检测大对象并均匀地将显著性值分配给所包含的区域。与对边缘和噪声等高频图像内容敏感的局部方法不同,当显著对象的纹理区域与背景相似时,全局方法效果较差(参见图1(d))。最近的一些研究探索了局部和全局方法的结合,其中背景先验,中心先验,颜色直方图和其他手工制作的特征以简单和启发式的方式用于计算显著性图。

虽然局部和全局模型[32,36]的结合在技术上是合理的,但这些方法有两个主要缺点。首先,这些方法主要依赖于手工制作的特征,这些特征可能无法描述复杂的图像场景和对象结构。其次,所采用的显著性先验和特征大多是基于启发式的组合,并且不清楚这些特征如何能够更好地集成。


在本文中,我们提出了一种新的显著性检测算法,它结合了局部估计和全局搜索(LEGS)来解决上述问题。在局部估计阶段,我们制定基于深度神经网络(DNN)的显著性检测方法,通过考虑其局部上下文为每个像素分配局部显著性值。训练好的深度神经网络,命名为DNN-L,将原始像素作为输入,并学习局部图像块的对比度,纹理和形状信息。 DNN-L生成的显著性图通过探索高级对象(即,对象的一般视觉信息)进一步确定,以确保标签一致性并用作局部显著性测量。在全局搜索阶段,我们搜索最显著的对象区域。首先使用通用目标提议方法[20]生成一组候选对象区域。收集包含全局颜色对比度,几何信息以及由DNN-L估计的局部显著性度量的特征向量以描述每个对象候选区域。这些提取的特征向量用于训练另一个深度神经网络DNN-G,以从全局角度预测每个对象候选区域的显著性值。最终显著图由显著性值加权的显著对象区域的总和生成。图2显示了我们算法的传输流程。

深度网络在图像分类,目标检测和场景解析中已经证明了很多成功。然而,在显著性检测中使用DNN仍然是有限的,因为主要由图像补丁提供的DNN不能捕获图像区域的全局关系并且保持局部邻域中的标签一致性。我们的主要贡献是通过提出一种从局部和全局的角度将DNN应用于显著性检测的方法来解决这些问题。我们证明了所提出的DNN-L能够捕获局部对比度,纹理以及形状信息,并预测每个像素的显著性值,而无需手工制作的特征。所提出的DNN-G可以通过监督学习方案使用各种显著性线索来有效地检测全局显著区域。DNN-L和DNN-G都在相同的训练数据集上训练(详见5.1节)。如果没有额外的训练,我们的方法可以很好地推广到其他数据集,并且能够很好地应对最先进的方法。

 

2.相关工作

在本节中,我们将讨论相关的显著性检测方法及其与通用目标检测方法的关联。此外,我们还简要回顾了与这项工作密切相关的深层神经网络。

显著性检测方法通常可以分类为局部和全局方案。局部方法通过计算局部对比度和稀有度来衡量显著性。在Itti等人的开创性工作[13]中,计算了多尺度图像特征的中心 - 环绕差异,以检测局部显著性。Ma和Zhang [25]利用局部邻域的色彩对比度来衡量显著性。在[11]中,显著性值是通过不同特征图上的马尔可夫链的平衡分布来测量的。仅考虑局部上下文的方法倾向于检测高频内容并抑制显著对象内的均匀区域。另一方面,全局方法通过使用整个图像的整体对比度和颜色统计来检测显著性。Achanta等[1]通过计算每个像素之间相对于其平均值的色差来估计视觉显著性。在[7]中使用基于全局对比度和空间相干性的直方图来检测显著性。刘等人[24]提出了一组来自局部和全局视图的特征,这些特征由条件随机场集成以生成显著图。在[29]中,基于区域的唯一性和空间分布的两个对比度度量被定义为显著性检测。为了识别小的高对比度区域,Yan等人[40]提出了一种分析显著性线索的多层方法。在[16]中提出了一种基于随机森林的回归模型,将区域特征向量直接映射到显著性得分。最近,朱等人[42]提出了一种背景测量方案,以利用边界先验进行显著性检测。虽然已经取得了重大进展,但是大多数上述方法通过启发式方法集成手工制作的特征以生成最终的显著性图,并且在具有挑战性的图像上表现不佳。相比之下,我们利用深度网络(DNN-L)自动学习捕获局部显著性的特征,并使用另一个深度网络(DNN-G)了解全局线索之间的复杂依赖性。

通用目标检测方法[3,2,37]旨在生成图像中所有类别独立对象的位置,并且近年来引起了越来越多的关注。现有技术通过测量图像窗口的对象性[2,5]或者在自下而上过程中对区域进行分组来提出对象候选[37,20]。生成的候选对象可以显著减少类别特定对象检测器的搜索空间,这反过来又帮助其他模块进行识别和其他任务。因此,通用目标检测与显著目标分割密切相关。在[2]中,显著性被用作对象度测量以生成候选对象。Chang等[4]使用图形模型来利用对象性和显著性提示的关系来进行显著目标检测。在[23]中,训练随机森林模型来预测候选对象的显著性得分。在这项工作中,我们提出了一种基于DNN的显著性检测方法,结合了局部显著性估计和全局显著对象候选搜索。

深度神经网络在图像分类[21,8,34],目标检测[35,10,12]和场景解析[9,30]中取得了最先进的成果。成功源于深层架构的可表达性和能力,有助于学习复杂的功能和模型,直接从训练示例中解释交互关系。由于DNN主要将图像补丁作为输入,因此它们在捕获场景解析以及显著性检测的长期标签依赖性方面往往失败。为了解决这个问题,Pinheiro和Collobert[30]使用循环卷积神经网络来考虑大的情境。在[9]中,以多尺度方式应用DNN以学习用于场景标记的分层特征表示。我们建议在局部和全局视角中利用DNN进行显著性检测,其中DNN-L估计每个像素的局部显著性,DNN-G基于全局特征搜索显著对象区域以强制执行标记依赖性。

 

3.局部估计

局部估计的动机是局部异常值从邻域那里以不同的颜色或纹理突出,往往会引起人们的注意。为了从局部视图中检测这些异常值,我们制定了二元分类问题,以确定每个像素是基于其周围是显著的(1)还是非显著的(0)。 我们使用深度网络,即DNN-L进行分类,因为DNN已经在图像分类中展示了最先进的性能,并且不依赖于手工制作的功能。通过将对象级概念结合到局部估计中,我们提出了一种改进方法来增强局部显著性图的空间一致性。

3.1 基于DNN的局部显著性估计

DNN-L的架构。所提出的DNN-L由六层组成,具有三个卷积层和三个全连接层。每一层都包含可学习的参数,包括线性变换,然后是非线性映射,由ReLUs[28]实现,以加速训练过程。局部响应归一化应用于第一层以帮助泛化。最大池化应用于所有三个卷积层以用于平移不变性。在第一和第二全连接层之后使用dropout以避免过拟合。网络采用51×51像素的RGB图像块作为输入,并利用softmax回归模型作为输出层,以生成中心像素突出和非突出的概率。架构详细信息列于表1中。

 

 


训练数据。对于训练集中的每个图像(参见第5.1节),我们通过以滑动窗口方式裁剪51×51 RGB图像块来采集样本,步长为10像素。为了标记训练补丁,我们主要考虑其中心像素的标签显著值以及补丁和标签显著性掩模之间的重叠。如果i),则将补丁B标记为积极训练示例,中心像素是显著的;ii)它足以与标签中的显著区域G重叠:|B∩G|≥0.7×min(|B|,|G|)。类似地,如果i)中心像素位于背景内;ii)其与标签的显著区域的重叠小于预定阈值:|B∩G|<0.3×min(|B|,|G|),则将贴片B标记为负训练示例。标记为既不是积极也不是否定的剩余样本不使用。在[21]之后,除了从每个像素中减去训练集上的平均值之外,我们不预处理训练样本。


训练DNN-L。给定训练补丁集{Bi}NL和相应的标签集{li}NL,我们使用具有权重衰减的softmax损失作为损失函数,

其中θL是DNN-L的可学习参数集,包括所有层的权重和偏差; 1{·}是指标函数; P(li = j |θL)是DNN-L预测的第i个训练样本的标签概率;λ是权重衰减参数;WLk是第k层的权重。DNN-L使用随机梯度下降进行训练,批量大小为m = 256,动量为0.9,重量衰减为0.0005。学习率初始设定为0.01,并且当损失稳定时,学习率降低0.1倍。训练过程重复80个周期。图3(a)示出了第一层中学习的卷积核,其捕获局部邻域的颜色,对比度,边缘和图案信息。图3(c)显示了第一层的输出,其中具有不同特征的局部显著像素由不同的特征图突出显示。

在测试阶段,我们以滑动窗口方式将DNN-L应用于整个图像,并将每个像素的概率P(l=1|θ)预测为其局部显著性值。图4(c)演示了生成的局部显著图。图3和图4都表明,所提出的局部估计方法可以通过用局部图像块训练DNN-L来有效地学习而不是设计表征局部显著性的有用特征。

3.2细化

局部估计方法通过考虑邻域内的颜色,对比度和纹理信息来检测显著性。因此,它可能对高频背景噪声敏感并且不能保持空间一致性。另一方面,显著性与对象级概念密切相关,即有趣的目标容易引起人们的注意。基于这一观察,我们建议通过结合低水平显著性和高水平目标来重新定义局部显著性图。为此,我们利用测地目标提议(GOP)[20]方法来提取一组目标片段。生成的目标候选者编码信息形状和边界线索,并用作图像中对象的过完整覆盖。我们的方法根据局部显著性图搜索具有高概率的这些候选的子集作为潜在对象,从而将局部估计和通用目标检测集成为补充过程。


给定输入图像,我们首先使用GOP方法生成一组目标候选掩码{Oi}NO,并使用我们的局部估计方法生成显著图SL。为了确定每个片段的信度,我们主要考虑基于局部显著性图,准确度分数A和覆盖度分数C的两个测量值,定义如下

其中Oi(x,y)=1表示位于输入图像的(x,y)的像素属于第i个对象候选,否则Oi(x,y)=0;SL(x,y)∈[0,1]表示像素(x,y)的局部显著性值。


准确度分数Ai测量第i个对象候选者的平均局部显著性值,而覆盖率分数Ci测量第i个对象候选者所覆盖的显著区域的比例。图5给出了解释这两个测量值的直观示例。与局部显著区域具有小重叠的黄色候选区域被分配低精度分数和低覆盖分数。覆盖几乎整个局部显著区域的红色候选区域具有高覆盖率但是精度得分低。位于局部显著区域内的绿色候选区域具有高准确度分数但是低覆盖分数。只有最佳蓝色候选人具有高准确度分数以及高覆盖率分数。基于上述观察,我们通过考虑准确度得分和覆盖率得分来确定第i个候选人的信心。

我们设定β= 0.4,以强调准确度得分对最终信心的影响。为了找到最佳候选对象的子集,我们按照它们的顺序按降序对所有候选对象进行排序。通过对前K个候选区域求平均来生成所定义的局部显著图(在所有实验中K被设置为20)。图4显示了改进前后的局部显著性图。

4.全局搜索

中心和对象偏差[31,22],对比信息[38]和背景[33,15]等显著性提示已被证明在以前的工作中是有效的。但是,这些显著性提示是独立考虑的,并且基于启发式方法进行组合。例如,通过将图像的边界区域内的所有像素视为背景来利用背景先验,而不考虑整个图像的颜色统计或前景的位置。相反,我们为显著性检测制定了一种基于DNN的回归方法,其中同时考虑各种显著性提示,并通过监督学习方案自动学习它们的复杂依赖性。对于每个输入图像,我们首先使用所提出的局部估计方法来检测局部显著性。提取72维特征向量以从全局视图描述由GOP方法生成的每个对象候选。提出的深度网络DNN-G将提取的特征作为输入,并通过回归预测候选区域的显著性值。

 

4.1全局特征

所提出的72维特征向量覆盖了对象候选区域的全局对比度特征,几何信息和局部显著性度量。全局对比度特征由三个部分组成:边界对比度,图像统计发散度和内部方差,它们在RGB,Lab和HSV颜色空间中计算。给定对象候选区域O并使用RGB颜色空间作为示例,我们在候选区域内的所有像素上计算其RGB直方图hRGBO,平均RGB值mRGBO和RGB颜色方差varRGBO.我们在图像的四个方向上定义了15个像素宽度的边界区域作为边界区域。由于不同方向的边界区域可能具有不同的外观,我们分别计算它们的RGB直方图和平均RGB值。为了表示方便,我们将RGB直方图和四个边界区域的平均RGB值统一分别表示为hRGBB和mRGBB.整个图像hRGBI的RGB直方图也用作图像统计。通过候选的RGB直方图和四个边界区域之间的卡方距离χ2(hRGBO,hRGBB)以及它们的平均RGB值之间的欧几里德距离d(mRGBO,mRGBB)来测量边界对比度。通过候选区域的RGB直方图与整个图像之间的卡方距离χ2(hRGBO,hRGBI)来测量候选区域与整个图像统计的颜色发散。候选区域的内部颜色方差由RGB颜色方差varRGBO测量。Lab和HSV颜色空间中的全局对
比度特征以类似的方式提取。表2总结了全局对比度特征的组成部分。

几何信息表征候选对象的空间分布。我们提取质心坐标,长/短轴长度,欧拉数和封闭边界框的形状信息,包括其宽度,高度和纵横比。除了欧拉数之外的所有上述特征都相对于输入图像大小进行归一化。表3显示了几何信息的细节。局部显著性测量基于由局部估计方法产生的显著性图来评估每个候选区域的显著性值。给定重新定义的局部显著图和对象候选掩模,我们使用(2)-(3)计算准确度分数A和覆盖分数C.还计算了对象掩模和局部显著图之间的重叠率(详 见表3)。

4.2 通过DNN-G回归进行显著性预测

DNN-G由6个全连接层组成。每层执行线性变换,然后是ReLU,以加速训练过程和dropout操作,以避免过拟合(见表1)。对于训练数据集(第5.1节)中的每个图像,使用GOP方法生成大约1200个对象区域作为训练样本。从每个候选区域提取所提出的72维全局特征向量v,然后通过减去平均值并除以元素的标准偏差来预处理。给定标签显著图G,将精度pi和重叠率oi,yi=[pi,oi]的标签矢量分配给每个对象区域Oi。


给定训练数据集{vi}NG和相应的标签集{yi}NG,通过解决以下优化问题来学习DNN-G的网络参数

其中θG是网络参数集;φ(vi|θG)= [φ1i,φ2i]是第i个训练样本的DNN-G的输出;WGk是第k层的权重;η是权重衰减参数,设定为0.0005。通过使用批量大小为1000且动量为0.9的随机梯度下降来解决上述优化问题。学习率初始设定为0.05,并且当损失稳定时,学习率降低0.5倍。训练过程重复100个周期。


在测试阶段,网络将第i个候选区域的特征向量作为输入,并通过φ(vi |θG)预测其精度和重叠率。候选区域的全局信度得分由下式定义


将{`O1,...,`ON}表示为输入图像中所有候选区域的掩码集,按降序排列全局信念分数。相应的全局信心分数由{confG1,...,confGN}表示。通过前K个候选掩模的加权和来计算最终显著图,

虽然在精神上相似,但我们的全局搜索方法在以下方面与[10],[16]和[23]有显著的不同:i)我们的方法利用DNN来学习不同视觉线索之间的复杂依赖关系,并在全局视图中确定候选区域的显著性,而[10]将DNN应用于边界框以提取分类特定的特征。 ⅱ)[16]和[23]都使用随机森林来根据区域特征预测区域显著性,其中[23]训练每个数据集的模型。相反,我们使用DNN进行显著性检测并在一个数据集中进行训练(参见第5.1节)。 III)。全局搜索与我们的工作中的局部估计相结合,从两个角度促进更强大的显著性检测。

 

5.实验结果

5.1 设置

我们在四个基准数据集上评估了所提出的算法:MSRA-5000 [24],SOD [27],ECCSD [40]和PASCAL-S [23]。MSRA-5000数据集广泛用于显著性检测,并涵盖各种图像内容。大多数图像仅包括一个与背景具有高对比度的显著对象。从伯克利分割数据库收集包含300个图像的SOD数据集。该数据集中的许多图像具有各种尺寸和位置的多个显著对象。 ECCSD数据集包含1000张带有来自互联网的复杂场景的图像,更具挑战性。新开发的PASCAL-S数据集构建在PASCAL VOC 2012细分挑战的验证集上。该数据集包含850个具有多个复杂对象和杂乱背景的自然图像。PASCAL-S数据集可以说是最具挑战性的显著性数据集之一,没有各种设计偏差(例如,中心偏差和颜色对比度偏差)。所有数据集都包含手动注释的标签显著性图。

由于MSRA-5000数据集涵盖了各种场景,而PASCAL-S数据集包含了复杂结构的图像,我们从MSRA-5000数据集随机抽取3000张图像,从PASCAL-S数据集随机抽取340张图像,以训练这两个网络。其余的图像用于测试。水平反射和尺度改变(±5%)应用于所有训练图像增加训练数据集。DNN使用caffe[14]框架实现[14]。经过训练的模型和源代码可以在我们的网站中找到。

我们使用PR曲线,F-测量和平均绝对误差(MAE)来评估性能。通过使用阈值分割显著区域并将二元图与标签进行比较来计算显著图的精确度和召回率。 PR曲线显示了不同阈值下显著性图的平均精度和召回率。 F测量定义为Fγ=((1 +γ2)precision×recall)/(γ2precision+recall),其中使用显著性图的平均显著性值的两倍作为阈值获得精确度和回忆,并且将γ2设置为0.3。MAE是显著性图和标签之间的平均每像素差异。

 

5.2特征分析

我们的全局搜索方法利用各种显著性线索来描述每个候选对象。我们基于不同特征空间中前景区域和背景区域的分布,对所有全局特征的判别能力进行了实证分析。我们使用来自PASCAL-S数据集的510个测试图像生成500000个对象候选区域。基于与标签显著区域的重叠率oi,第i个候选区域被分类为前景(oi> 0.7)或背景(oi <0.2)。剩余的候选区域(0.2≤oi≤0.7)未使用。图6显示了4.1节中讨论的三种类型的特征空间中的前景区域和背景区域的分布以及DNNG生成的全局信任评分空间。在补充材料中可以找到更多结果。图6中的分布图显示了所有三种类型的特征空间中前景区域和背景区域之间的强重叠。基于这些特征的启发式组合,前景和背景区域难以分离。我们的全局搜索方法训练深
度网络,以学习复杂的特征依赖性,并实现显著性检测的准确信度分数。

5.3 性能比较


我们将提出的方法(LEGS)与包括SVO[4],PCA[26],DRFI[16],GC[6],HS[40],MR[41],UFO[17],wCtr[42],CPMCGBVS[23]和HDCT [18]在内的十种最先进模型进行比较。我们使用作者提供的实现或显著性图进行公平比较。我们的方法在PR曲线(图8),F-测量以及所有三个数据集中的MAE分数(表4)方面都有利于最先进的方法。图7显示我们的方法在各种具有挑战性的场景中生成更准确的显著性图。我们的方法的强大性能可归因于DNN用于复杂特征和模型学习,以及局部/全局显著性估计的集成。

6.结论

在本文中,我们通过结合局部估计和全局搜索来提出用于显著性检测的DNN。 在局部估计阶段,建议的DNN-L通过从局部对比度,纹理和形状信息学习丰富的图像块特征来估计局部显著性。在全局搜索阶段,提出的DNN-G有效地利用了全局显著性线索之间的复杂关系,并预测每个对象区域的显著性值。我们的方法通过有监督的基于DNN的学习方案集成了低级显著性和高级别对象性。基准数据集的实验结果表明,该算法可以实现最先进的性能。

 

猜你喜欢

转载自blog.csdn.net/weixin_40740160/article/details/83786695