26.A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

基于显著性的快速场景分析视觉注意模型

 

摘要

受到对早期灵长类动物的视觉系统的表现和其神经元结构的启发,提出了一个新的视觉注意力机制。把多个特征点图像组合成一个标志其特点的显著图。然后为了减少显著特征的数量,神经网络只会选择有明显特征的地点。这个系统解决了快速选择中复杂的场景感应问题,仅仅显著的地方会被仔细分析。

关键字:视觉注意,场景分析,特征提取,目标检测,视觉搜索

 

1 引言

 灵长类动物拥有一个重要的能力,即实时分析复杂的场景,尽管负责这种任务的神经元硬件条件在速度方面有一定的局限。媒介和更高级的视觉处理流程在后续处理上对场景信息进行了选择,只保留了他们的一部分。这样做大大减少了场景分析的复杂程度。这种选择是通过视觉领域的空间局部区域的形式实现的,这就是所谓的“注意力焦点”,这种方法不仅快速、由下向上、基于显著特点,而且还能较慢的、自上向下的、意志控制的、和取决任务目标的方式扫描场景图像。

注意力模型包括“动态路由”模型,在此模型中大脑皮层的视觉层次结构处理的仅仅是视觉领域中的一部分区域的信息。这个注意力区域的选择取决于大脑皮层连通的动态改变、或者是活动的特殊暂时模式的建立,它们都是在自上向下(任务独立)和自下向上(场景依赖)的控制之中的。

这里使用的模型建立在Koch 和Ullman等基于几个模型提出的第二生物合理框架结构上的(图一)。它和用来解释人类视觉搜索策略的所谓的“特征集成理论”是相关联的。视觉输入首先分解成一组地形图。然后,不同的空间位置在每个图谱内竞争显著性,使得只有局部从其周围突出的位置才能持续存在。所有的特征图以一个纯粹的自下向上的方式的处理成为一个主要的“显著图”,它在整个视觉场景中对局部醒目性进行编码。在灵长类动物中,这样的特征图被认为放置在顶叶皮层中,还有各种视觉特征图位于丘脑的核心处。这个模型的显著图被赋予了内部动态,而这种内部动态形成了注意力偏移。因此这个模型描绘了完整一列自下向上的显著特征,并且没有为了转移注意要求任何一个自上向下的引导。在快速筛选中,这个框架结构针对少数感兴趣的图像目标进行更复杂和耗时的目标识别流程。听过了大量的对比方法。这种方法还可以拓展为“引导式搜索”,这是一种来自更高级皮层区域的反馈(比如关于被寻找的目标的知识)被用来权衡不同特征的重要性,高权值的特征才会被接纳进入更高处理
水平的流程。

 

2  模型

模型以静态的彩色图像、分辨率通常为640×480的形式作为输入。运用二元高斯金字塔创建了九个空间区域,它们依次地通过低通滤波器。对输入图像进行二次采样,形成排列为1:1(0级)到1:256(8级)的8°的水平和垂直的图像采样。

每个特征都通过一系列的线性“中心周围”来计算,类似于视觉能容纳的区域(图一):典型神经元最敏感的会是整个视觉空间的一个小区域(中心),然而呈现在与中心点同轴的边界和弱对抗区域(边界)的刺激物抑制了神经元响应。这样的一个对局部空间不连续性十分敏感的结构非常适合检测与周围有明显差异的局部空间,而且这也是视网膜、外侧膝状体核和灵长类动物大脑视觉皮层的常规计算法则。中心周围是通过在精细和粗糙级别中的不同点的模型来实现的:这个中心点是一个在等级c∈{2,3,4}之中的像素,并且周围的像素点等级在s = c + δ,  δ ∈{3, 4}中。两个图谱之间的跨尺度差异,在下面表示为“ϴ”,通过内插到更精细的尺度和逐点减法来获得。使用几个尺度不仅对c而且对d = s - c产生真正的多尺度特征提取,通过包括中心和周围区域之间的不同大小比率(与以前使用的固定比率[5]相反)。

 

2.1早期视觉特征的抽样

在输入图像中,用r、g、b分别表示红、绿和蓝的颜色通道,并且图像亮度I是通过I=(r+g+b)/3得到的。这里的I用来创建高斯金字塔I(σ),其中σ∈[0..8]表示等级。为了从亮度中减弱色度,r、g、b通过I进行归一化。然而,由于色调变化在非常低的亮度下是不可察觉的(因此不是显着的),因此归一化仅应用于I大于其整个图像的最大值的1/10的位置(其他位置产生零r,g ,和b)。四个广泛调整的颜色通道被创建:

红色:R = r-(g+b)/2;

绿色:G = g-(r+b)/2;

蓝色:B = b-(r+g)/2;

黄色:Y = (r+g)/2 - |r-g|/2 - b(负数清零)。四个高斯金字塔R(σ),G(σ),B(σ),Y(σ)通过这些颜色通道被创建。

“中心”精细等级c和“周围”粗糙等级s的差异产生特征图。第一个特征集合关系到亮度对比度,这在哺乳动物中通过神经元的敏感检测到亮环境中的黑中心、或者黑环境中的亮中心。这里,两种类型的敏感度在一组六个图中同时被计算(运用一次矫正),其中,I(c,s),c∈{2,3,4},s=c+δ,δ∈{3,4}:

I(c,s)=|I(c)ϴI(s)|                                      (1)

第二组图谱用类似的方法构造颜色通道,这在视觉皮层中描绘了所谓的“color-double-opponent”(CDO)系统:在它们可接收到范围内的中心,神经元被一种颜色刺激(例如,红色)并且被另外一种颜色抑制(例如,绿色),然而在中心之外却会体现出相反的现象。这样的空间和色彩的对立在人类视觉大脑皮层中有以下组合中:红/绿、绿/红、蓝/黄、黄/蓝。据此,表RG(c,s)在这个模型同时计算出来红/绿、绿/红两个对立组(2),同理表BY(c,s)表示蓝/黄、黄
/蓝两个对立组合(3):

图像中局部位置的方向信息是通过利用方向Gabor金字塔从I中获得(I即为第一个特征图Intensity),其中σ∈[0..8]表示参数范围,θ∈{0°,45°,90°,135°}表示涉及到的方向。(Gabor滤波器是余弦栅格和2D高斯包络的产物,这个可部分可以约等于在灵长动物的定位选择神经系统中,视觉皮层接收信息的敏感度(脉冲响应))。方向特征图,O(c,s,θ),编码为一个组,方向信息在中心区域和周边区域形成强烈对比:

O(c,s,θ)=|O(c,θ)ϴO(s,θ)|       (4)

总之,我们计算出了42特征图:六个表示亮度,12个表示颜色,还有24个表示方向

 

2.2 显著图

显著性图的目的是通过显著性的空间分布来表示醒目度(conspicuity-saliency)或显著度:在视野中每个位置用一个定量向量表示,引导注意位置的选择。通过一个动态神经网络模型,特征图的组合可以向显著性图提供自下而上的输入。

对不同的的特征图表示了不可比较的模态的先验信息,有不同的动态范围和提取机制。42个特征图结合时,在一些特征图中表现非常强的显著目标可能被其它更多的特征图的噪声或不显著的目标所掩盖,被标记为噪声、或者较弱显著特征的物体。

 

 
 


在缺少自上而下监督的情况下,采用一个归一化操作算子N(.),整体提升那些有部分强刺激峰值(醒目位置)的特征图,而整体抑制那些包含大量可比峰值响应,(图二):

  • 将所有图的取值固定为[0,M],消除依赖于模态的幅值差异;

②计算图中最大值M的位置和其他所有局部极大值的平均值m;

  • 整幅图像乘以(M-m)* (M-m)。

只考虑活动的局部最大值,例如N(.)比较与映射图谱中有意义的“活动点”相关的响应,而忽略同构区域。将整个映射图谱中的最大活动与平均总体激活相比较,可以衡量最活跃的位置与平均值之间的差异。当这种差异很大时,最活跃的位置就会脱颖而出,映射图谱也会得到大力推广。当差异很小时,映射图谱不包含任何唯一的内容,并且被抑制。N(.)的设计背后的生物学动机是,它粗略地复制了皮质侧抑制机制,在这种机制中,相邻的相似特征通过特定的、解剖学上定义的连接[15]相互抑制。


所有特征图联合成为三个“显著图”,在显著图的等级(σ=4)时,表示`I亮度(5),表示`C颜色(6),表示`O方向(7)。它们是通过跨尺度加法“Å”获得的,“Å”包括将每个映射图谱缩小到第4级并逐点添加:


对于方向,首先通过组合给定θ的六个特征图创建四个中间图,然后将它们组合成一个单一方向显著性映射图谱:


三个不同通道的创建,和他们的个体归一化的动机是类似特征为显著性而激烈的竞争,不同的形式独立的贡献给显著特征图。这三个显著特征图归一化并总结作为显著图的输入S:

在任何所给的时间,显著图的最大值定义了最显著的图像位置,该位置注意力的焦点具有指向作用。我们现在能够简单地把最活跃的位置作为模型下一次出现的点。但是,在神经元的实现过程中,我们在第四级把显著性图谱建模成2D层次结构的集成和解散的神经元。这些模型神经元由单个电容组成,其整合由突触输入,泄漏电导和电压阈值提供的电荷。达到阈值时,会产生原型尖峰,电容电荷被分流到零[14]。显著性图谱以规模s = 4进入生物可信的2D“赢者通吃”(WTA)神经网络[4],[1],其中单位之间的突触相互作用确保仅保留最活跃的位置,而所有其他地点被压制。

在显著性图谱中的每个神经元从S中接受刺激性的输入并且都是独立的。电势位于显著性图谱神经元最跳跃的位子上,因此增加非常快(这些神经元被用作纯粹的积分器而不被释放)。每一个神经元激发他相应的WTA神经元。所有的WTA神经元也都独立的发展进化,直到某一个(胜者)第一个达到了阈值并且释放。这触发了三个同时发生的机制(图3):

1)这个FOA转变成为胜者神经元位置;

2) WTA的全局抑制被触发并完全抑制(重置)所有WTA神经元;

3)在具有FOA的大小和新位置的区域中,显著性图谱中的局部抑制被瞬时激活;这不仅通过允许下一个最突出的位置随后成为赢家而产生FOA的动态转变,而且还防止FOA立即返回到先前参加的位置。

这样一个“返回抑制”已经被人类视觉心理物理学论证了。为了稍微偏向模型以随后跳转到空间上接近当前参加位置的显著位置,在显著性图谱中,在FOA的近环境中瞬时激活小激励(Koch和Ullman的“接近偏好”规则[4])。

既然我们没有模拟任何以后自上向下的注意力部分,所以FOA是一个简单的圆盘,它的半径修正为输入图像的高和宽两者之间的较小者的1/6。这个模拟神经元的时不变性、电导率和击穿电压被选择,以便FOA从一个显著特征位置跳跃到下一个显著特征位置只需要大约只需要30-70ms(模拟时间),同时一个被注意的区域被抑制需要大约500-900ms(图三),正如研究心理物理学得到的结果一样。这些延迟的差异证明他是充裕去保证彻底浏览图像和阻止仅仅在有限的几个位置上发生循环。在我们的试验中,所有的参数都被修正,并且在整个图像研究中这个系统是稳定的。

 

2.3 和空间频率容量模型比较

Reinagel和Zador利用一个跟踪眼睛的设备沿着眼睛的浏览路径分析局部空间频率干扰,其中这个路径在人们自由查看灰度等级图像时形成的。他们发现在修正的位置上空间频率容量平均值意义重大的高于随机的位置。尽管眼睛轨迹能够不同于在意志力控制下的注意力轨迹,视觉注意力常被认为preocculomotor机制,它能强烈的影响自由视野。因此,研究我们的模型是否也能在线Reinagel和Zador的发现也变的有兴趣了起来。

我们构建一个简单的空间频率容量(SFC)的量度:在一个给定的位置上,对每个I(2)、R(2)、G(2)、B(2)和Y(2)取样取出来一个16×16的图像,然后对这每个小图像进行快速傅里叶变换(FFTs)。对于每个图像块儿,一个阈值用来计算不可忽视FFT系数;这个阈值和可感知的摩擦声(1%对照)的FFT振幅相吻合。SFC的衡量值是这五个相应的图像块的不可忽略系数的平均值。选择图像块儿的尺寸和比例使SFC量度对和我们模型的差不多的频率和分辨率比较敏感;而且,我们的SFC量度也在RGB通道和亮度中计算出来。利用这个量度,SFC表可以在4级的时候被创建,并且能够和显著特征图进行比较(图四)。

 

3  结果和讨论

尽管显著特征图的概念在FOA模型中被广泛的应用,微小的细节常常能够给出解释和提供动态性能。在这里,我们将研究前馈特征提取阶段,映射图谱的组合策略和显著性映射的时间属性如何有助于整体系统性能。

 

3.1总体性能

为了确保正常的运行,这个模型进行了大量图片的测试;例如,按照对比度依次兑减的顺序,展示了几个有相同形状的目标,但有着不同对比度的背景的图片。这种模型被证明对于这种图片(图五)有着良好的鲁棒性,尤其是对于噪声的特性(比如它的颜色)没有和目标的主特点产生直接冲突的图片。

该模型能够再现人类在一些突出任务[7]中的表现行为,使用图2所示类型的图像。当一个目标从通过其独特的性质和周围的干扰因素区分出来(如图2),颜色,强度或大小不同,它总是在首要显示的位置,不管干扰项的数目如何。反之,当目标仅仅由于特点的结合从干扰项中区分出来(例如,它是在红色垂直柱和绿色水平柱的混合阵列中唯一一个红色的垂直柱),找到目标的必要搜索时间随着干扰项的数量线性增长。这两个结果在人类[7]得到了广泛的观察,接下来在第3.2节中加以讨论。

我们还测试了真实图像的模型,从自然的户外场景到艺术绘画,使用N(.)来归一化特征图(图3和[17])。用许多这样的图像,难以客观地评价模型,因为没有客观参考可用于比较,观察者们也许也会就哪个区域最为显著产生分歧。然而,在所研究的所有图像中,大部分显示出的区域都是显著的目标,如面部,旗帜,人,建筑物,或车辆。

对模型预测以本地的SFC的所述量度进行比较,以一个类似于Reinagel和Zador[18]的实验中,使用与凸交通标志(90张图像),一个红色苏打罐(104张图像),或者在车辆的紧急自然场景三角形符号(64张图像)。类似于Reinagel和扎多尔的调查结果,在参表示区域中,其SFC比平均SFC明显高很多,通过在第八显示区域从在首要显示区域2.5±0.05下降至1.6±0.05的事实。虽然这个结果并不一定表示人眼的注视和模型的注意力轨迹之间的相似性,表明该模型和人类一样,被吸引到图像中“信息的”位置。根据普遍假设,具有越丰富的光谱内容的区域,可以提供的信息就越多。对于大部分图像来说,SFC图类似于显著图(例如,图4.1)。然而,这两种图分析图像时,在照明和色彩(例如,由于斑点噪声)方面有强烈的差异,尽管这些区域均表现出高SFC值,他们因为他们的均匀性(图4.2和图4.3)呈现出较低的显著性。在这样的图像中,显著图往往会与我们主观感觉到的显著的比例更加一致,对于258张分析的图像,所表现区域的SFC值明显低于其最高SFC值,由第一表现区域的0.90±0.02下降到第八表现区域的0.55±0.05:虽然所显示的模型SFC值很高,它们和最高SFC的区域相比较而言,就显得不重要了。这大约可以结论性地说明,显著点不只是一个区域SFC的测量方法。这种利用空间特点竞争进行计算的模型,可以主观地抓获明显高于纯粹的区域SFC测量。

 

3.2 强度和极限

我们提出了一个架构和组件模仿早期灵长类动物视觉特性的模型。尽管它结构简单、特征提取机制为前馈方式,该模型能够在复杂的自然场景表现出色。例如,它可以迅速检测各种形状(圆形,三角形,正方形,矩形),颜色(红,蓝,白,橙,黑色),和纹理(字母标记,箭头,条纹,圆)的显著交通标志,虽然它被设计的目的并非如此。这种优秀的表现更加坚固了一个想法,那就是一个独特的著图,从早期的视觉过程接收输入,可以有效地引导灵长动物自下而上的注意力[4],[10],[5],[8 ]。从一个计算角度来看,这种方法的主要优势在于它基于大规模相似的实践,不仅在耗费计算的早期特征提取阶段,还在于注意力集中系统。比以前的基于广泛的放松技巧[5]模型更进一步的是,我们的架构可以很容易地允许在专用硬件进行实时操作。

 

该模型预期性能的类型关键取决于一个因素:只有对象特征的特征图中的至少一个得以表达,才能导致他的显现,即,快速检测独立于干扰对象的数目[7]。没有修改前期注意特征提取的步骤,我们的模型无法检测出特征的连接性。虽然我们的系统会立即检测出由其独特的尺寸,强度,颜色,或方向与周围环境区分出来的目标(我们已经实现了,因为他们已经很好地表征初级视觉皮层的属性),但是它无法检测还未实现的显著目标类型(例如,T路口或行尾字符,那些具体的神经探测器的存在仍有争议)。为了简单起见,我们也没有用特征图实现任何复发机制,因此,不能再现轮廓填充和闭合,这对于一些类型的人眼识别[19]是至关重要的。此外,目前,我们的模型不包含任何大细胞运动通道,而这正是人类识别显著特征中发挥强有力作用的地方[5]。

一个鉴定的模型组件是N(.)的归一化,它在任何情况下都为计算显著特点提供了一种通用机制。通过模型执行所产生的显着特征度量,即使往往与区域SFC相关,更接近人类所分辨的显著性,因为它执行了显着区域之间的空间竞争。我们对N(.)前馈实现比以前提出的迭代计划[5]更快,更简单。从神经元上讲,在条纹和纹外皮层[15]细胞非经典接受区域,空间竞争与已经观察的N(.)具有类似的效果。

总之,我们已经提出了显著性驱动的焦点视觉注意的一个概念简单的计算模型。以生物洞察力作为其结构的指导,再现一些灵长类动物的视觉系统的性能被证明是非常效率的。这种方法对目标检测的效率主要取决于实现的特征类型。这里提出的框架能够通过随后专用特征图的实施,很容易地适应任意任务。

猜你喜欢

转载自blog.csdn.net/weixin_40740160/article/details/84640669