27.Saliency Detection A Spectral Residual Approach

不得不说,这篇文章很短,但很经典,发表在CVPR2007,代码也只有5行,可能因为个人原因,感觉里面还是有很多地方不太明白为什么,分享给大家我的小翻译,希望我们可以互相学习

Saliency Detection A Spectral Residual Approach

显著性检测光谱残留方法

摘要

人类视觉系统检测视觉显著性的能力非常快速和可靠。然而,这种基本智能行为的计算建模仍然是一个挑战。 本文提出了一种简单的视觉显著性检测方法。

我们的模型独立于对象的特征,类别或其他形式的先验知识。通过分析输入图像的对数谱,我们提取了谱域中图像的谱残差,并提出了一种快速的方法来构造空间域中的相应显著图。

我们在自然图片和人工图像(如心理模式)上测试此模型。结果表明我们的方法快速而稳健的显著性检测。

 

  1. 引言

目标识别的第一步是目标检测。对象检测旨在在识别之前从其背景中提取对象。但在进行识别特征分析之前,机器视觉系统如何从未知背景中提取显著区域?

传统模型通过将特定特征与目标相关联,实际上将此问题转换为特定类别对象的检测[3]。由于这些模型基于训练,因此可扩展性成为广义任务的瓶颈。面对不可预测和无数类别的视觉模式,需要通用的显著性检测系统。换句话说,显著性检测器的实现应该尽可能少地参考目标的统计知识。

人类视觉系统的显著性检测过程是如何实现的?据信,涉及两个阶段的视觉处理:第一,平行,快速但简单的预注意过程;然后,连续,缓慢但复杂的注意过程。文献[27,24]中讨论了预注意处理的特性。在此阶段,某些低级特征(如方向,边缘或强度)可以自动“弹出”。从目标检测的角度来看,在预注意阶段弹出的是目标的候选。为了解决已被检测但尚未被识别为对象的候选者,Rensink在他的连贯性理论中引入了原始目标的概念[15,13,​​14]。

在机器视觉领域,已经出现模型来找到给定图像的”原始目标”。基于Treisman的整合理论[24],Itti和Koch提出了一种模拟人类视觉搜索过程的显著性模型[8,6,7]。最近,Walther扩展了显著性模型,并成功将其应用于目标识别任务[26]。然而,作为预处理系统,这些模型在计算上要求很高。

大多数检测模型都侧重于总结目标对象的属性。但是,不太可能存在由各种类别的对象共享的一般属性。在本文中,我们以另一种方式提出这个问题:探索背景的属性。

在第2节中,引入了光谱残差。从自然图像统计原理出发,我们提出了一种模拟预注意视觉搜索行为的前端方法。与传统的图像统计模型不同,我们分析每个图像的对数谱并获得谱残差。然后我们将光谱残差变换到空间域以获得显著图,其提示原始对象的位置。在第3节中,我们还展示了基于光谱残差方法的多目标检测。

为了评估我们方法的性能,在4.1节中,我们将我们的方法与[8]和人类标记的结果进行了比较。结果表明,该方法是一种快速可靠的计算模型,可用于早期视觉处理。

 

  1. 光谱残差模型

高效编码是一种通用框架,在该框架下可以解释我们的视觉处理的许多机制。 Barlow [1]首先提出了有效编码假设,该假设消除了感官输入中的冗余。视觉系统的一个基本原则是抑制对频繁出现的特征的响应,同时保持对偏离规范的特征敏感[9]。因此,只有意外信号才能传递到后续处理阶段。

从信息论的角度来看,有效编码将图像信息H(Image)分解为两部分:

H(图片)= H(创新)+ H(先验知识),

H(Innovation)表示新颖部分,H(Prior Knowledge)是应该由编码系统抑制的冗余信息。在图像统计领域,这种冗余对应于我们环境的统计不变特性。这些特性已经在与自然图像统计有关的文献中得到了全面的讨论[4,25,17,18]。现在人们普遍认为自然图像不是随机的,它们遵循高度可预测的分布。

在以下部分中,我们将演示一种通过删除统计冗余组件来近似图像的“创新”部分的方法。我们相信这一部分本身就是在预注意阶段突然出现原始对象的原因。

 

2.1 对数谱表示


在自然图像统计的不变因素中,尺度不变性是最受欢迎和最广泛研究的属性[20,17]。此属性也称为1/f法则。它指出自然图像集合的平均傅里叶谱的振幅A(f)服从分布:

在对数-对数尺度上,自然图像集合的振幅谱在经过取向平均后大致位于直线上。

尽管对数-对数谱在理论上已经成熟并且已被广泛使用,但它在单个图像的分析中不受青睐,因为:(1)在单个图像中不可能发现尺度不变性;(2)采样点的比例不均匀,低频部分在对数平面上稀疏地跨越,而高频部分则在一起,受到噪声的影响[25]。


在本文中,我们采用了图像的对数谱表示L(f)而不是对数-对数表示。对数谱可以通过L(f)=log(A(f))获得。log-log和log谱表示之间的比较如图1所示。

对数谱表示已用于与统计场景分析有关的一系列文献[22,23,21,11]。在下一节中,我们将在显著性检测任务中利用对数谱的功能。对数谱的例子如图2所示。我们发现不同图像的对数谱具有相似的趋势,尽管每个图像都包含统计奇异点。图3分别显示了在1,10和100个图像上的平均光谱曲线。该结果表明平均对数谱中的局部线性。

2.2 从光谱残差到显著图

相似之处意味着冗余。对于旨在最小化冗余视觉信息的系统,它必须意识到输入刺激的统计相似性。因此,在可以观察到相似性的不同对数谱中,值得我们注意的是从平滑曲线中跳出的信息。我们认为,光谱中的统计奇异点可能是图像中异常区域的原因,弹出原始对象。

给定输入图像,从下采样图像计算对数谱L(f),其中高度(或宽度)等于64px。输入大小的选择与视觉比例有关。第3.1节讨论了视觉尺度和视觉显著性之间的关系。


如果先前获得了L(f)中包含的信息,则需要处理的信息是:

其中A(f)表示对数谱的一般形状,其作为先验信息给出。R(f)表示输入图像特有的统计奇异点。在本文中,我们将R(f)定义为图像的光谱残差。


如图3所示,平均曲线表示局部线性。因此,采用局部平均滤波器hn(f)来近似A(f)的形状是合理的。在我们的实验中,n等于3.改变hn(f)的大小只会稍微改变结果(见图5)。平均频谱A(f)可以通过卷积输入图像来近似:


其中,hn(f)是一个N*N的矩阵,由以下定义:


因此,光谱残差R(f)可以通过以下方式获得:

在我们的模型中,光谱残差包含图像的创新。它就像场景的压缩表示一样。使用逆傅里叶变换,我们可以在空间域中构造称为显著图的输出图像。显著性图主要包含场景的重要部分。残余光谱的内容也可以被解释为图像的意外部分。因此,显著性映射中每个点的值都被平方,以表示估计误差。为了获得更好的视觉效果,我们使用高斯滤波器g(x)(σ= 8)对显著图进行了平滑处理。

总之,给定图像I(x),我们有:


其中F和F-1分别表示傅立叶变换和逆傅里叶变换。 P(f)表示图像的相位谱,其在处理期间被保留。

  1. 检测显著图中的原始对象


显著性图是原始对象的显式表示,在本节中,我们使用简单的阈值分割来检测显著性中的原始对象。 给定图像的S(x),获得对象图O(x):

根据经验,我们设定threshold=E(S(x))*3,其中E(S(x))是显著性图的平均强度.阈值的选择是误报和忽视目标之间的权衡问题。 第4.1节提供了对此问题的简要讨论。

在生成目标映射O(x)的同时,可以方便地从输入图像中的对应位置提取原始对象。按顺序提取多个目标。

3.1 选择视觉尺度


视觉系统在某些尺度下工作。例如,在大规模中,人们可以将房屋视为物体,但是在小规模中,房屋的前门很可能作为物体弹出。我们实验中的比例选择等于输入图像尺寸的选择。然而,在更小的范围内,大的特征与图像中微小但突然的变化相比变得没有竞争力。改变比例会在显著性图中导致不同的结果。该特性如图7所示。

视觉尺度与视觉传感器的光学能力紧密相关。对于预先注意的任务,采用常数因子作为视觉尺度的估计是合理的。由于预注意力视觉的空间分辨率非常有限[5]。如果没有缓慢的审查过程,人类就不太可能察觉到图像的细节,这与傅立叶频谱中的高频部分相对应[12]。根据模拟实验,我们发现64 px的输入图像宽度(或高度)是对正常视觉条件尺度的良好估计。

 

4. 实验和分析

评估目标检测系统的性能并不容易。其中一种广泛使用的测量方法是记录眼球运动[7]。然而,这种方法在我们的实验中并不适用,因为眼动仪只记录位置信息,不能记录被关注区域的大小和形状。此外,隐蔽的注意力在目标检测中起作用,可以在没有明显眼睛运动的情况下感知原始物体。

 

4.1 评估结果

在我们的实验中,我们提供4个自然场景图像。这些图像取自[11],[10]和[26]。每个受试者被指示“选择呈现对象的区域”。如果每个主体都报告不可能在某个图像中定义对象,那么该图像将从数据集中被拒绝。最后,收集了62张图像来测试我们的方法的性能。

实验的目的不同于分割[10]。分割任务的主要问题是空间的突然变化。但在我们的任务中,手工贴标机只集中在前景和背景之间的边缘。


对于每个输入I(x),从第k个手工贴标机获得的二进制图像表示为Ok(x),其中1表示目标对象,0表示背景。给定生成的显著图S(x),可以获得命中率(HR)和误报率(FAR):

该标准指出,最优显著性检测系统应该在没有处理者建议原始对象的区域中响应低,并且在大多数贴标签者在原始对象的共识处相遇的区域中响应高。


我们将结果与该领域的先前方法进行比较,我们还基于Itti众所周知的理论[8]生成显著性图作为控制集。可以从http://www.saliencytoolbox.net下载此方法的MATLAB实现。对于Itti的方法,图像被下采样到320×240。对于光谱残差法,每个颜色通道都是独立处理的。为了进行比较,我们必须使这两种方法的FAR或HR相等。例如,给定光谱残差显著性图的距离,我们可以通过参数c来调整Itti方法S(x)的显著性图:


和使用ˆS (x),而不是S(x)用等式11和等式12来计算FAR和HR。同样的,在给出了Itti方法的HR的情况下,我们线性地调整了由谱残差产生的显著性映射。

结果表明,与Itti方法相比,该方法具有更好的综合性能。在计算上,执行FFT的成本相对较低——这为显著性检测器带来了相当大的优势,使其更容易在现有系统上实现。

 

4.2 对心理模式的响应

我们还用人工模式测试我们的方法。这些模式被一系列注意力实验[24,27]采用,以探索预注意视觉搜索的机制。


人们普遍认为,某些复杂的特征超出了预先注意的能力,必须采用更精细和耗时的搜索过程来区分图9中“闭合”等模式中的奇异点。相应地,我们的方法无法找出“c”中的唯一圆。

5.讨论

我们提出了一种通用目标检测方法。该方法基于图像的对数谱表示。我们的主要贡献是发现光谱残差及其检测原始物体的一般能力。

 

5.1 光谱残差法的前景

谱残余方法的一个优点是它的通用性。在我们的系统中,不需要显著性检测所需的先验知识。此外,这种显著性的一体化定义涵盖了未知特征,例如图9中的“曲线”。 此外,光谱残差解决了来自不同通道(例如,形状,纹理和方向)的加权特征的问题。 与其简单的实现相比,我们的系统的结果被证明是有效的。 最后,与其他检测算法相比,我们的方法的计算消耗非常简约,为实时系统提供了一种很有前景的解决方案。

 

5.2 进一步的工作

我们的结果与人类视觉系统的表现有惊人的相似之处,特别是对心理模式的反应,都是巧合,还是人类视觉系统和光谱残差有生物学意义?据报道,具有相似频谱的不同物体相互干扰[2]。最近的研究还表明,当仔细调整背景光谱以掩盖前景光谱时,视觉目标需要更多时间来识别[28]。需要做更多的工作来发现早期视觉的光谱特性。

 在本文中,我们的讨论仅限于静态图像。虽然可以在不考虑视频序列的连续性的情况下计算视频序列的每个帧的显著性映射,但是并入运动特征将极大地扩展我们的方法的应用。由于运动特征的特殊性,尚未提出统一的特征模型。然而,我们很高兴看到已经将动作纳入一般特征框架[16]。

另一项潜在的工作是将我们的方法与分割技术合作。分割是一个独立的研究领域,其主要目标是分离边界。相比之下,我们的方法忽略了对象的空间同质性。例如,在图8的最后一个例子中,马球运动员和他们的马被分开。为了实现通用对象检测,应该进一步努力来界定对象的清晰边界。

猜你喜欢

转载自blog.csdn.net/weixin_40740160/article/details/84671755