Selective Search for Object Recognition论文翻译

exhaustive search:
1)缺点:位置数量多,盲目
2)思考:我们能否通过数据驱动的分析来引导采样?

选择性搜索:
1)来源:结合穷举搜索和分割的优点—使用图像结构来指导采样过程,并提出一个数据驱动的选择性搜索,目标是捕获所有可能的对象位置。
一个类无关的、数据驱动的、选择性搜索策略,该策略生成一小组高质量的对象位置。
2)特点:
1.使用分割作为选择性搜索,使用图像结构来采样一组类无关的对象假设
2.使用自底向上的分组过程来生成良好的对象位置
3.多样化地进行搜索,并使用各种互补的分组标准和各种具有不同不变性的互补色空间来处理尽可能多的图像条件
4.对象假设集的质量和数量之间存在平衡:边框越多,变异性越大,使得目标识别问题更加困难
5.区域合并时使用随机抖动
3)分组算法
1.尽可能使用基于区域的特性(区域可以产生比像素更丰富的信息)
2.鼓励小区域尽早合并
4)相似性算法
5)步骤:
1.一个过分割算法
2.计算每个区域与相邻区域的相似性,迭代合并最相似区域,保留所有层次。
3.使用词袋进行对象识别
4.一个支持向量机与直方图交集核作为分类器
6)训练
1.初始分类模型:正样本为金标准对象窗口;负样本由选择性搜索生成(重叠度在20

摘要

本文讨论了在目标识别中生成可能的目标位置的问题。我们引入了选择性搜索,它结合了穷举搜索和分割的优点。像分割一样,我们使用图像结构来指导我们的采样过程。像穷举搜索一样,我们的目标是捕获所有可能的对象位置。我们不再使用单一的技术来生成可能的目标位置,而是多样化地进行搜索,并使用各种互补的图像分区来处理尽可能多的图像条件。我们的选择性搜索能找出一小组数据驱动的、类无关的、高质量的位置,产生99%的召回率,在10,097个位置的平均最佳重叠率为0.879。与穷举搜索相比,位置的减少使得使用更强大的机器学习技术和更强大的外观模型来进行对象识别成为可能。在这篇论文中,我们证明了我们的选择性搜索能够使用强大的词袋模型进行识别。选择性搜索软件是公开的。(1http://disi.unitn.it/˜uijlings/SelectiveSearch.html)

1.介绍

分割应该是分层的,且使用单一策略进行分割的通用解决方案可能根本不存在。为什么要将一个区域分组在一起,有许多相互矛盾的原因:在图1b中,使用颜色可以将猫分开,但它们的纹理是相同的;相反,在图1c中,变色龙在颜色上与周围的树叶相似,但其纹理不同;最后,在图1d中,车轮在颜色和质地上都与汽车有很大的不同,但是被汽车包围着。单一的视觉特征并不能解决分割的模糊性。
在这里插入图片描述
图1:一个图像区域形成一个对象的原因有很多。在(b)中,猫可以通过颜色而不是纹理来区分。在©中,变色龙可以通过纹理而不是颜色来区别于周围的叶子。在(d)中,轮子可以是汽车的一部分,因为它们是封闭的,而不是因为它们在质地或颜色上相似。因此,要以结构化的方式寻找对象,需要使用各种不同的策略。此外,图像在本质上是分层的,因为在(a)中没有找到完整的桌子、沙拉碗和沙拉勺的单一比例。

最后,还有一个更基本的问题。具有非常不同特征的区域,例如毛衣上的脸,只有在确定正在处理的物体是人之后才能组合成一个物体。因此,如果没有事先的识别,很难确定一张脸和一件毛衣是一个物体[29]的一部分。
这导致了与传统方法相反的结果:通过对象的识别来进行定位。最近的这种对象识别方法在不到十年的时间里取得了巨大的进步[8,12,16,35]。利用从示例中学习的外观模型,执行穷举搜索,检查图像中的每个位置,以避免遗漏任何潜在的对象位置[8、12、16、35]。
然而,穷举搜索本身有几个缺点。搜索每一个可能的位置在计算上是不可行的。搜索空间必须通过使用规则的网格、固定的比例和固定的高宽比来缩小。在大多数情况下,定位的数量仍然很大,以至于需要实施其他限制措施。分类器需要简化,外观模型需要提速。此外,一个统一的采样产生了许多边框,很明显它们不支持一个对象。相对于盲目地使用穷举搜索来采样,一个关键的问题是:我们能否通过数据驱动的分析来引导采样?
在本文中,我们的目标是结合分割和穷举搜索的最佳直觉,并提出一个数据驱动的选择性搜索。受自下而上分割的启发,我们的目标是利用图像的结构来生成目标位置。受穷举搜索的启发,我们的目标是捕获所有可能的对象位置。因此,我们的目标不是使用单一的采样技术,而是使采样技术多样化,以满足尽可能多的图像条件。具体来说,我们使用数据驱动的基于分组的策略,通过使用各种互补的分组标准和各种具有不同不变性的互补色空间来增加多样性。这些位置集是由这些互补的位置组合而成的。我们的目标是生成一个类无关的、数据驱动的、选择性搜索策略,该策略生成一小组高质量的对象位置。
选择性搜索的应用领域是目标识别。因此,我们对为此目的最常用的数据集Pascal VOC检测挑战进行了评估,该挑战由20个对象类组成。这个数据集的大小为我们的选择性搜索提供了计算约束。此外,使用这个数据集意味着位置的质量主要是通过边界框来评估的。但是,我们的选择性搜索也适用于区域,也适用于grass等概念。
本文提出了一种基于选择性搜索的目标识别方法。我们的主要研究问题是:(1)什么是好的多样化策略,以适应分割作为一个选择性搜索策略?(2)选择性搜索如何有效地在图像中创建一小组高质量的位置?(3)我们是否可以使用选择性搜索来使用更强大的分类器和外观模型来进行对象识别?

2. 相关工作

我们将相关工作限定在目标识别领域,并将其分为三类:穷举搜索、分割和其他不属于这两类的采样策略

2.1 穷举搜索

由于对象可以位于图像中的任何位置和比例,所以到处搜索是很自然的[8,16,36]。然而,视觉搜索空间是巨大的,使得穷举搜索在计算上是昂贵的。对每个地点和/或考虑的地点数目的评价代价是巨大的。因此,这些滑动窗口技术大多使用粗糙的搜索网格和固定的高宽比,使用弱分类器和经济的图像特征,如HOG[8,16,36]。该方法常被用作级联分类器的预选步骤[16,36]。
与滑动窗口技术相关的成功方法是Felzenszwalb等人的基于部分的对象定位方法[12]。该方法还利用线性支持向量机和HOG特征进行穷举搜索。它们搜索对象和对象部件,这样的组合带来了令人惊讶的对象检测性能。
Lampert等人提出使用外观模型来指导搜索。这既减轻了使用常规网格、固定比例和固定纵横比的限制,同时也减少了访问的位置数量。这是通过使用分支和绑定技术直接搜索图像中的最佳窗口来实现的。虽然他们在线性分类器上取得了令人惊讶的结果,但[1]发现,对于非线性分类器,该方法在实践中仍然在每幅图像中访问超过100,000个窗口。
我们建议使用选择性搜索,而不是盲目的穷举搜索或分支和绑定搜索。我们使用底层的图像结构来生成对象位置。与前面讨论的方法相反,这将生成完全与类无关的一组位置。此外,因为我们没有使用固定的长宽比,所以我们的方法不仅限于对象,还应该能够找到像草和沙子这样的东西(这也适用于[17])。最后,我们希望生成更少的位置,这应该会使问题更容易,因为样本的可变性变得更低。更重要的是,它释放了计算能力,可以用于更强大的机器学习技术和更强大的外观模型。

2.2 分割

Carreira和Sminchisescu[4]以及Endres和Hoiem[9]都提出了使用分割生成一组类独立对象假设。这两种方法都生成多个前景/背景分割,学习预测前景分割是一个完整对象的可能性,并使用它来对分割进行排序。这两种算法都显示出了在图像中精确描绘对象轮廓的潜力,[19]也证实了这一点。[19]使用[4]实现了最先进的像素级图像分类结果。在分割中,这两种方法都依赖于一个单一的强算法来识别好的区域。他们通过使用许多随机初始化的前景和背景种子来获得各种位置。相反,我们通过使用不同的分组标准和不同的表示来显式地处理各种图像条件。这意味着一个较低的计算投资,因为我们不必投资于单一的最佳分割策略,如使用优秀但昂贵的轮廓检测器的[3]。此外,由于我们分别处理不同的图像条件,我们希望我们的位置有一个更一致的质量。最后,我们的选择性搜索范式指出,最有趣的问题不是我们的区域相比于[4,9]如何,而是它们如何相互补充
Gu等人的[15]解决了仔细分割和识别对象基于其部分的问题。他们首先使用基于Arbelaez等人的[3]的分组方法生成一组部分假设。每个部分的假设都是由外观和形状特征描述的。然后利用这些部分对对象进行识别和精细刻画,从而达到良好的形状识别效果。在他们的工作中,分割是分层进行的,并且产生在所有尺寸的分割段。但是,它们使用单一的分组策略,其发现部分或对象的能力没有得到评估。在这篇论文中,我们使用多种互补策略来处理尽可能多的图像条件。我们在评估中包括使用[3]生成的位置。

2.3 其他采样策略

Alexe等人的[2]解决了一个穷举搜索的大采样空间的问题,提出搜索任何对象,独立于其类。在他们的方法中,他们在那些具有明确形状的对象的对象窗口上训练分类器(与草和沙子之类的东西相反)。然后,他们不进行全面的穷举搜索,而是随机抽样边框,并将它们应用到分类器中。具有最高“对象性”指标的边框作为一组对象假设。然后使用这个集合来极大地减少由类特定对象检测器评估的窗口的数量。我们把我们的方法与他们的工作相比较。
另一种策略是使用词袋模型的可视词来预测目标位置。Vedaldi等人在[34]中使用了跳跃窗口[5],通过学习单个视觉单词与目标位置之间的关系来预测新图像中的目标位置。Maji和Malik[23]将这些关系的多个部分结合起来,使用霍夫变换来预测对象的位置,然后他们对接近Hough最大值的窗口随机采样。与学习不同,我们使用图像结构来采样一组类无关的对象假设。
总而言之,我们的创新性如下。我们不使用穷举搜索[8,12,16,36],而是使用分割作为选择性搜索,生成一小组类无关的对象位置。与[4,9]的分割相比,我们并没有专注于最佳的分割算法[3],而是使用各种策略来处理尽可能多的图像条件,从而大大降低了计算成本,同时有可能准确地捕获更多的对象。我们使用自底向上的分组过程来生成良好的对象位置,而不是在随机采样的边框[2]上学习“对象性”度量。

3. 选择性搜索

在这一节中,我们详细介绍了我们的目标识别的选择性搜索算法,并提出了各种多样化的策略来处理尽可能多的图像条件。选择性搜索算法需要考虑以下设计因素:
捕获所有的尺度: 对象可以出现在图像中的任何范围内。此外,一些对象的边界比其他对象的边界更模糊。因此,在选择性搜索中,必须考虑所有对象的比例,如图2所示。这很自然地通过使用分层算法来实现。
在这里插入图片描述
多样性: 没有单一的最优策略来将区域分组在一起。正如前面在图1中所观察到的,区域可能只因为颜色、纹理或部分封闭而形成对象。此外,照明条件,如阴影和光的颜色可能会影响区域如何形成一个对象。因此,我们希望有一套不同的策略来处理所有的情况,而不是一个在大多数情况下都很有效的单一策略。
高效的计算: 选择性搜索的目标是生成一组可能的目标位置,用于实际的目标识别框架。这个集合的创建不应该成为计算瓶颈,因此我们的算法要相当快才行。

3.1 按层次分组进行选择性搜索

我们采用分层分组算法作为选择性搜索的基础。自底向上分组是一种流行的分割方法[6,13],因此我们将其用于选择性搜索。由于分组过程本身是层次化的,通过持续的分组过程直到整个图像成为一个单一区域,我们可以自然地生成所有尺度的位置。这满足捕获所有尺度的条件。
由于区域可以产生比像素更丰富的信息,我们希望尽可能使用基于区域的特性。为了得到一组理想情况下不跨越多个对象的小的起始区域,我们使用了Felzenszwalb和Huttenlocher[13]的快速方法,[3]发现这种方法非常适合我们的目的。
我们的分组过程如下所示。我们首先使用[13]来创建初始区域。然后利用贪心算法对区域进行迭代分组:首先计算各相邻区域之间的相似性。将两个最相似的区域分组在一起,并计算得到的新区域与其相邻区域之间的新相似性。将最相似的区域分组的过程不断重复,直到整个图像变成一个单独的区域。一般方法详见算法1
在这里插入图片描述
对于区域ri和rj之间的相似度s(ri, rj),我们需要在它们快速计算约束下的多种互补测度。实际上,这意味着相似性应该基于可以通过层次结构传播的特性(例如,将ri和rj合并为rt时,rt的特征由ri和rj算出,而不是使用像素)。

3.2 多样性策略

选择性搜索的第二个设计标准是使抽样多样化,并创建一组互补的策略,这些策略的位置随后被组合起来。我们通过以下方法使我们的选择性搜索多样化:(1)使用具有不同不变性的各种颜色空间;(2)使用不同的相似性度量sij;(3)改变我们的起始区域。
互补的颜色空间: 我们想考虑不同的场景和照明条件。因此,我们在具有一定不变性的各种颜色空间中执行层次分组算法。具体来说,我们使用以下不变性程度增加的颜色空间:(1)RGB;(2)强度(灰度图像)I;(3)Lab;(4)rgI:规范化RGB的rg通道加上强度I; (5)HSV;(6)rgb:规范化RGB; (7) C[14]:这是一个删除强度的opponent彩空间(8)HSV中的通道H。表1列出了特定的不变性属性。
在这里插入图片描述
(如r:标准化的RGB中的R和G对光强、阴影不敏感,而对高光敏感)
(如rgI:r和g对光强和阴影不敏感,I对光强和阴影敏感;rgI对高光敏感)
当然,对于黑白图像,颜色空间的变化对算法的最终结果影响不大。对于黑白图像,我们依靠其他多样化方法来确保良好的目标位置。
在本文中,我们总是在整个算法中使用一个单一的颜色空间,这意味着[13]的初始分组算法和我们的后续分组算法都是在这个颜色空间中执行的。
互补的相似性测度: 我们定义了四个互补的、快速计算的相似度度量。这些测量值都在[0,1]范围内以便组合。
Scolour(ri,rj)度量了颜色相似性。具体来说,对于每个区域,我们使用25个bins获得每个颜色通道的一维颜色直方图,我们发现这很有效。这样,当使用三个颜色通道时,每个区域ri的颜色直方图
在这里插入图片描述
的维数n = 75。使用L1范数对颜色直方图进行归一化。相似度是通过直方图相交来测量的:
在这里插入图片描述
通过下式,颜色直方图可以在层次间快速传播:
在这里插入图片描述
所得区域的大小就是其组成部分的总和:size(rt) =size(ri)+size(rj)。
Stexture(ri,rj)度量了纹理相似性。我们使用快速的SIFT-like测量来表示纹理,因为SIFT本身可以很好地进行质地识别[20]。具体做法是对每个颜色通道的8个不同方向计算方差σ=1的高斯微分(Gaussian Derivative)。对于每个颜色通道的每个方向,我们使用一个bin为10的直方图。当使用三个颜色通道时,每个区域ri纹理直方图
在这里插入图片描述
的维数为 n = 8×3×10 = 240。使用L1范数对纹理直方图进行归一化。相似度是通过直方图相交来测量的:
在这里插入图片描述
纹理直方图可以像颜色直方图一样有效地在层次结构中传播。
Ssize(ri,rj)鼓励小区域尽早合并。这迫使S中的区域(即尚未合并的区域)在整个算法中具有相似的大小。这是可取的,因为它确保在图像的所有部分创建所有比例的对象位置。例如,它可以防止一个区域一个接一个地吞噬所有其他区域,只在这个生长区域产生所有的尺度,而在其他任何地方都不会产生。Ssize(ri,rj)定义为ri与rj总共占据图像的一小块地方。
在这里插入图片描述
其中size(im)表示图像的大小(以像素为单位)
Sfill(ri,rj)表示区域ri和rj相互适应的程度。这个想法是为了填补缺口:如果ri包含在rj中,为了避免任何漏洞,首先合并这些是合乎逻辑的。另一方面,如果ri和rj几乎没有接触,合并它们的 话可能会形成一个奇怪的区域,所以不应该合并。为了快速测量,我们只使用区域和包含框的大小。具体来说,我们将BBij定义为ri和rj周围的紧密边界框,现在Sfill(ri,rj)是包含在BBij中不被ri和rj区域覆盖的图像的一部分
在这里插入图片描述
为了与上述公式保持一致(归一化),我们除以size(im)。注意,通过跟踪每个区域周围的边界框,可以有效地计算这个度量,因为两个区域周围的边界框可以很容易地从这些边界框中派生出来。
在本文中,最终的相似性度量由上面四式组合而成:
在这里插入图片描述
其中,ai取值为0和1,代表是否使用对应的相似测度。由于我们的目标是使我们的策略多样化,我们不考虑任何加权的相似性。
互补的初始区域: 第三个多样化策略是改变互补的初始区域。就我们所知,[13]的方法是最快的、公共可用的算法,它能产生高质量的初始位置。我们找不到任何其他算法具有类似的计算效率,所在本文中以我们只使用这种过度分割。但是请注意,不同的起始区域(已经)是通过改变颜色空间获得的(而不是改变初始分割算法),每个颜色空间具有不同的不变性。另外,我们在[13]中改变了阈值参数k。

3.3 区域合并

在本文中,我们结合了层次分组算法的几种变体的目标假设。理想情况下,我们希望以这样一种方式来排列对象假设,即最有可能是对象的位置首先出现。这使得我们能够根据后续特征提取和分类方法的计算效率,在结果对象假设集的质量和数量之间找到一个很好的平衡。
我们选择根据在每个单独的分组策略中假设生成的顺序对组合的对象假设集进行排序。然而,由于我们综合了多达80种不同战略的结果,这样的顺序将过于强调大区域。为了防止这种情况,我们加入了一些随机性,如下所示。给定分组策略j,令rij(上j下i)为在层次结构中位置i处创建的区域,其中i = 1表示层次结构的顶部(对应区域覆盖整个图像)。我们现在计算位置值vij(上j下i)为RND×i,其中RND是范围[0,1]内的一个随机数。最终的排名是通过使用vij对区域排序得到的。理解:原来是大区域在前小区域在后,加入一些随机抖动使不同区域的分布趋向均匀。
当我们在边界框中使用位置时,我们首先根据上述方法对所有位置排序。只有在此之后,我们才会过滤掉排名较低的重复项。这确保了重复的边框有更好的机会获得高排名。这是可取的,因为如果多个分组策略建议相同的框位置,它很可能来自图像的一个视觉上一致的部分。

4. 基于选择性搜索的对象识别

本文利用选择性搜索生成的位置信息进行目标识别。本节详细介绍了我们的对象识别框架。
两种类型的特征在对象识别中占主导地位:有向梯度直方图(HOG)[8]和词袋直方图[7,27]。Felzenszwalb等人的研究表明,HOG与基于部分的模型相结合是成功的。然而,由于HOG特征使用了穷举搜索,因此从计算的角度来看,与线性分类器相结合是唯一可行的选择。相比之下,我们的选择性搜索支持使用更昂贵和可能更强大的功能。因此,我们使用bag-of - words进行对象识别[16,17,34]。但是,我们使用了比[16,17,34]更强大(和更昂贵)的实现,方法是使用各种color-sift描述符[32]和更精细的空间金字塔划分[18]。
具体来说,我们在单个尺度(σ= 1.2)上的每个像素采样描述符。利用[32]中的软件,我们提取了SIFT[21]和两种对图像结构检测最敏感的colour-SIFT,也就是OpponentSIFT[31]和RGB-SIFT[32]。我们使用一个大小为4000的可视码本和一个具有4个层次的空间金字塔,分别使用1x1、2x2、3x3。和4 x4的大小。这就得到了一个总长度为360,000的特征向量。在图像分类中,[25,37]已经使用过这种大小的特征。由于空间金字塔的结果是比构成HOG描述符的单元格更粗的空间划分,所以我们的特征包含关于对象的特定空间布局的信息更少。因此,HOG更适合于刚性对象,而我们的特性更适合于可变形的对象类型。
作为分类器,我们使用一个支持向量机与使用Shogun Toolbox[28]的直方图相交内核。为了应用训练好的分类器,我们使用了[22]的快速、近似的分类策略,这在[30]中被证明是非常有效的。
在这里插入图片描述我们的训练过程如图3所示。最初的正样本包括所有的金标准对象窗口。作为最初的负样本,我们从所有由我们的选择性搜索产生的对象位置中进行选择,这些对象位置与正样本有20%到50%的重叠。为了避免近似重复的负样本,如果一个负样本与另一个负样本有超过70%的重叠,则该负样本将被删除。为了使每个类别的初始负样本数量保持在20,000以下,我们随机减半了一些类的负样本,分别是car、cat、dog和person。从直觉上看,这组例子可以被看作是难以辨别的负样本,因为它们和正样本很接近。这意味着它们很接近决策边界,因此很可能成为支持向量,即使考虑到所有负样本。实际上,我们发现这种训练示例的选择提供了相当好的初始分类模型。
然后,我们进入再训练阶段,迭代地添加得分较高(也就是接近误判)的负样本(例如[12]):我们使用选择性搜索生成的位置将学到的模型应用到训练集。对于每个负样本,我们都添加了得分最高的位置。由于我们的初始训练集已经产生了良好的模型,我们的模型只收敛于两次迭代。
对于测试集,最后的模型应用于我们的选择性搜索生成的所有位置。窗口根据分类器得分进行排序,而与得分较高的窗口重叠超过30%的窗口被认为是近似重复,并被删除。

5. 评估

在本节中,我们将评估选择性搜索的质量。我们将实验分为四个部分,每一部分都包含一个单独的小节:
多样性策略: 我们用各种颜色空间、相似度度量和初始区域的阈值进行实验,所有这些都在3.2节中详细介绍。我们寻求生成对象假设的数量、计算时间和对象位置的质量之间的权衡。我们通过边界框来实现这些。这些互补的技术选择,共同作为我们的最终选择搜索方法。
位置的质量: 我们测试了由选择性搜索产生的目标位置假设的质量。
对象识别: 我们使用了在第4节详细介绍的,在目标识别框架中的选择性搜索的位置。我们在Pascal VOC检测挑战中评估性能。
定位质量的上限: 我们研究了我们的对象识别框架在使用一个完美质量的对象假设集时的表现。这与我们的选择性搜索生成的位置相比如何?
为了评估我们的对象假设的质量,我们定义了类平均最佳重叠(ABO)和平均最佳重叠(MABO)评分,这稍微概括了[9]中使用的测量方法。为了计算特定类c的平均最佳重叠,我们计算了每个金标准g与对应图像生成的对象假设L之间的最佳重叠,并求平均值:
在这里插入图片描述
其中,i和j为对象索引,Gc为类别c的金标准集合,g每个c类对象的真实位置,l为算法计算出的c类对象位置。
重叠评分取自[11],计算两个区域的交集面积除以其并集面积:
在这里插入图片描述
与类平均精度和平均精度类似,平均最佳重叠现在被定义为所有类别的平均ABO值。
其他工作经常使用Pascal重叠标准的召回率来衡量边框的质量[1,16,34]。该判据认为,当上式的重叠大于0.5时,可以被判为目标。在我们的许多实验中,大多数类的召回率在95%到100%之间,这使得该方法对于本文来说太不敏感了。然而,我们在与其他工作进行比较时,确实报告了这一测度。
为了避免过拟合,我们在Pascal VOC 2007 训练+验证集上进行了多样化策略实验。其他实验在Pascal VOC 2007测试集上进行。另外,我们的对象识别系统使用独立的评估服务器,在Pascal VOC 2010 detection challenge上进行了基准测试

5.1 多样性策略

在本节中,我们评估各种策略,使用适量的边框在适当时间内获得高质量的对象位置假。

5.1.1 平面与层次结构

在对我们的方法的描述中,我们认为使用完整的层次结构比通过更改阈值来使用多个平面分区更自然。在本节中,我们将测试使用层次结构是否也会导致更好的结果。因此,我们使用多个阈值的[13]与我们提出的算法进行比较。具体来说,我们在RGB颜色空间中执行这两种策略。对于[13],我们将阈值k 在50到1000之间变化,步长为50。这个范围包括大区域小区域。另外,作为一种特殊的阈值类型,我们将整个图像作为对象位置,因为相当多的图像只包含一个大对象。此外,我们还使用一个更粗的范围,从k = 50到k = 950,步长为100。
对于我们的算法,为了创建初始区域,我们使用k = 50的阈值,以确保两种策略具有相同的最小尺度。此外,由于生成的区域更少,所以我们将k = 50和k = 100的结果合并。作为相似性度量S,我们使用3.2节的公式中定义的所有四个相似性的相加。结果见表2。
在这里插入图片描述
可以看出,对象假设的质量在我们的层次策略而不是多个平面分区中更高:在相同数量的区域,我们的MABO评分始终较高。此外,通过结合我们的层次分组算法的两个不同阈值的位置实现的MABO的增加远远高于通过为平面分区添加额外的阈值实现的增加。我们的结论是,使用层次分组算法中的所有位置不仅更自然,而且比使用多个平面分区更有效。

5.1.2 独立的多样化策略

本文提出了三种获得高质量目标假设的多样化策略:改变颜色空间、改变相似度度量和改变阈值以获得初始区域。本节研究每种策略的影响。作为基本设置,我们使用RGB颜色空间、所有四个相似性度量的组合以及阈值k = 50。每次我们改变一个参数。结果见表3。
在这里插入图片描述
我们在表3的左侧部分开始检查相似性度量的组合。首先分别查看颜色、纹理、大小和填充,我们看到纹理相似性表现最差,MABO值只有0.581,而其他度量值在0.63到0.64之间。为了测试纹理相对较低的分数是否是由于我们对特征的选择,我们还尝试用局部二进制模式[24]来表示纹理。我们使用不同的一致性/连续性(见[24])的图案,在不同的尺度上对4邻域和8邻域的颜色进行实验,我们将单个颜色通道的LBP直方图连接起来。但是,我们得到了相似的结果(MABO = 0.577)。我们认为纹理弱的一个原因是物体边界:当两个片段被一个物体边界分开时,这个边界的两边会产生相似的边缘响应,这在不经意间增加了相似性。
虽然纹理相似度产生相对较少的目标位置,但是在300个位置上,其他相似度度量仍然产生高于0.628的MABO。这表明,在比较个体策略时,表3中最终的MABO分数是衡量对象假设的质量和数量的良好指标。另一个观察结果是,相似度度量的组合通常优于单一度量。事实上,使用所有四种相似度测量,MABO的值最高,为0.676。
观察表3右上角的颜色空间的变化,我们发现结果有很大的差异,从C颜色空间的125个位置的MABO值为0.615,到HSV颜色空间的463个位置的MABO值为0.693。我们注意到,使用328个边框,Lab-space的MABO评分特别高,为0.690。此外,每个层次的顺序是有影响的:使用HSV颜色空间的前328个盒子产生0.690 MABO,而使用前100个盒子产生0.647 MABO。这表明,在比较单一策略时,我们只能使用MABO评分来表示对象假设集的质量和数量之间的权衡。在下一节中,我们将在寻找好的组合时使用这一方法。
对[13]阈值生成起始区域的实验表明(在表3的右下角),初始阈值越低,使用的对象位置越多,MABO值越高

5.1.3 多样化策略的组合

为了得到一个高质量的目标位置集,我们使用了多种互补的分组策略来组合目标位置假设。由于对最佳组合的完整搜索在计算上是昂贵的,我们仅使用MABO评分作为优化标准来执行贪心搜索。我们之前观察到,这个分数代表了位置数量和质量之间的权衡。
根据得到的顺序,我们设计了三种搭配:单一的最佳策略、快速选择性搜索和使用所有单个组件(即颜色空间、相似性、阈值)组合的高质量选择性搜索,如表4所示。贪心搜索强调相似性度量组合的变化。这证实了我们的多样化假设:在高质量的版本中,所有相似点的组合旁边,填充和大小是独立作用的。本文的其余部分使用表4中的三种策略。
在这里插入图片描述

5.2 位置的质量

在本节中,我们将在Pascal VOC 2007测试集上,根据平均最佳重叠和位置数量来评估我们的选择性搜索算法。我们首先评估基于边框的位置,然后简要地评估基于区域的位置。

5.2.1基于边框的位置

我们比较的滑动窗口搜索[16]、利用其模型的窗口比率来搜索[12]的滑动窗口,跳跃窗口[34],[2]的“对象性”边框、边框的分层分割算法[3]、区域周围的边框[9]和周围的框区域[4]。从这些算法中,只有[3]不是为寻找对象位置而设计的。[3]是目前最好的轮廓探测器之一,公开可用,并产生一个自然的层次区域的结果。我们把它包括在我们的评估,看看这个分割算法是否在寻找良好的对象位置上也表现良好。此外,[4,9]被设计用来寻找好的对象区域,而不是边框。结果如表5和图4所示。
在这里插入图片描述
如表5所示,我们的"Fast"和"Quality"的选择性搜索方法产生的最佳召回率分别接近98%和99%。MABO分别为0.804和0.879。为了理解0.879的最佳重叠值意味着什么,图5显示了自行车、奶牛和人的示例位置,其重叠值在0.874和0.884之间。这说明我们的选择性搜索可以得到高质量的目标位置。
在这里插入图片描述
此外,请注意我们的MABO评分的标准偏差相对较低:快速选择搜索为0.046,高质量选择搜索为0.039。这表明,选择性搜索对对象属性的差异以及与特定对象相关的图像条件(例如室内/室外照明)具有鲁棒性。
如果我们与其他算法比较,第二高的召回率是0.940,这是通过每个类使用10,000个框来跳跃窗口[34]实现的。由于我们没有准确的边框,我们无法获得MABO分数。第三名是[12]的穷举搜索,在每个类100,352个框时,[12]的召回率为0.933,MABO为0.829(这个数字是所有类的平均值)。这大大低于我们的方法,同时至少多用了10倍以上的对象位置。
进一步来说,[4,9]的分割方法具有较高的标准差。这说明一个单一的策略不可能对所有的类都同样有效。相反,使用多种互补策略会导致更稳定和可靠的结果。
如果我们将Arbelaez[3]的分割与我们方法的单一最佳策略进行比较,他们在418个边框的召回率为0.752,MABO为0.649,而我们使用286个边框的召回率为0.875,MABO为0.698。这表明,一个好的分割算法并不会自动在边界框方面产生好的对象位置。
在这里插入图片描述
图4探讨了对象假设的质量和数量之间的权衡。在召回率方面,我们的“Fast”方法优于所有其他方法。[16]的方法只用了200个位置似乎也很好,但是在他们的方法中,200是相对于每个类的,而对于我们的方法,计算的是所有类的边框数。在MABO方面,[4]和[9]的对象假设生成方法对于生成的每张图像中多达790个对象边框位置都有很好的数量/质量权衡。然而,这些算法在计算时间上是我们“Fast”方法的114和59倍。
有趣的是,“对象性”方法在召回率方面表现得很好,但在MABO方面表现得更差。这很可能是由于它们的非最大抑制造成的,这抑制了与现有的、更高级别的窗口有超过0.5个重叠分数的窗口。当0.5的重叠分数是查找对象的条件时,这种方法显著地改进了结果,但是对于寻找质量最高的位置的一般问题来说,这种方法的效率较低,甚至可能因为消除了更好的位置而起反作用。
图6显示了几个方法中每个类的平均最佳重叠。它派生出对[12]的穷举搜索,它使用了10倍多的类特定的位置,其性能类似于我们对类bike、table、chair和sofa的方法,对于其他类,我们的方法产生了最好的分数。通常,得分最高的类是cat、dog、horse和sofa,这在很容易,因为数据集中的它们的实例往往很大。得分最低的类是瓶子类、人类和植物类,这是较难的,因为它们的实例往往很小。尽管如此,牛、羊和电视并不比人大,但我们的算法可以很好地找到它们。
在这里插入图片描述
总而言之,选择性搜索对于使用有限数量的框来发现高质量的对象假设集是非常有效的,其中的质量与对象类是合理一致的。[4]和[9]的方法具有类似的质量/数量权衡(在多达790个对象位置上)。但是,它们在对象类上有更多的变化(标准差大)。此外,对于我们的“Fast”和“Quality”的选择性搜索方法来说,它们的计算成本至少要高59倍和13倍,这对于当前用于对象识别的大数据集是一个问题。一般来说,我们得出这样的结论:使用10,097个类无关的对象位置时,选择性搜索能生成的质量最好的位置,其MABO为0.879。

5.2.2基于区域的位置

在本节中,我们将研究选择性搜索生成的区域捕获对象位置的效果。我们对Pascal VOC 2007测试集的分割部分进行了这样的处理。我们将其与[3]的分割以及[4,9]两者的对象假设区域进行了比较。表6显示了结果。请注意,区域的数量大于框的数量,因为几乎没有完全相同的副本。
在这里插入图片描述
两个[4,9]的目标区域的质量与我们的“Fast”选择搜索相似,分别为0.665 MABO和0.679 MABO,其中我们的“Fast”搜索得到0.666 MABO。虽然[4,9]使用较少的区域,这些算法的计算开销分别是"Fast"算法的114和59倍。我们的“Quality”选择性搜索生成22,491个区域,分别比[4,9]快25倍和13倍,并且到目前为止的最高分是0.730 MABO。
图7显示了每个类的区域的平均最佳重叠。除了bike类之外,我们的selective search始终有较高的ABO分数。自行车的性能在区域位置而不是对象位置上要低得多,因为自行车是一个线框对象,因此很难精确地描绘出来。
在这里插入图片描述
如果我们将我们的方法与其他方法相比较,[9]的方法更适合于训练,对于其他类,我们的“Quality”方法产生类似或更好的分数。鸟、船、公共汽车、椅子、人、植物、电视的ABO得分高出0.05。对于car,我们的ABO值高出0.12,而对于bottle,我们的ABO值甚至高出0.17。从表6中ABO评分的变化可以看出,选择性检索的变化幅度略低于其他方法:“Quality”为0.093 MABO,[9]为0.108 MABO。然而,这个分数是有偏差的,因为线框自行车,没有自行车的差异变得更加明显。“Quality”选择性搜索的标准偏差为0.058,[9]为0.100。这再次表明,依靠多种互补策略而不是单一策略可以产生更稳定的结果。
图8显示了来自我们的方法和[4,9]的几个分割示例。在第一幅图中,其他的方法不能很好地区瓶子的白色标签和书本。在我们的例子中,我们的一个策略忽略了颜色,而填充物相似度(Eq. 5)帮助把瓶子和标签放在一起。瓶子上缺少的部分是有灰尘的,在瓶子部分形成之前,这个部分就已经和桌子合并了,所以在这里填充是没有帮助的。第二个图像是一个黑暗图像的例子,由于我们的算法使用了各种颜色的空间,所以它通常有很好的结果。在这幅特殊的图像中,部分强度不变的Lab色彩空间有助于隔离汽车。由于我们没有使用[3]的轮廓检测方法,所以我们的方法有时会产生不规则的边界,例如第三幅猫的图像。最后的图像显示了一个非常困难的例子,只有[4]提供了一个准确的片段。
在这里插入图片描述
现在,由于选择性搜索的本质:不是让方法互相竞争,更有趣的是看它们如何互相补充。由于两者[4,9]的算法非常不同,根据我们的多样化假设,这种组合应该是有效的。实际上,如表6的下半部分所示,结合我们的“Fast”选择性搜索,可以在6,438个位置获得0.737的MABO。这是一个更高MABO的方法,比单独使用“Fast”选择性搜索产生的位置数更少。结合我们的“quality”与[4,9],在25,355个位置得到0.758个MABO。这是一个很好的增长,代价是。增加不多的位置数。
综上所述,选择性搜索对于根据区域生成目标位置是非常有效的。多种策略的使用使得它能够适应各种图像条件以及对象类。[4],[9]和我们的分组算法组合成一个单一的选择性搜索显示了有潜力的改进。鉴于这些改进,考虑到有很多不同的分区算法用于选择性搜索,这将是有趣的,看看我们的选择性搜索范例仍然可以在计算效率、对象位置数量、对象位置质量等方面优化到什么程度。

5.3 对象识别

在本节中,我们将使用Pascal VOC 2010检测任务来评估我们的目标识别选择性搜索策略。
我们的选择性搜索策略能够使用昂贵而强大的图像表示和机器学习技术。在本节中,我们将在第4节中描述的基于词袋的对象识别框架中使用选择性搜索。与穷举搜索相比,对象位置的数量减少了,因此可以使用这种强大的词袋实现是可行的。
计算需求的指示:三个SIFT变量的像素级提取加上视觉单词任务大约需要10秒,并且每幅图像完成一次。最后一轮的支持向量机学习每类在GPU上花费大约8个小时来完成大约30,000个[33]训练示例,这些示例是在Pascal VOC 2010上两轮难样本挖掘的结果。难样本的挖掘是并行进行的,在10台机器上进行一轮大约需要11个小时,每张图片大约需要40秒。这40秒包括计算可视单词频率和(30秒)分类(0.5秒/类)。测试需要40秒的时间来提取特征、分配可视单词和计算可视单词频率,之后每个类需要0.5秒进行分类。为了进行比较,[12]的代码(没有级联,就像我们的版本一样)需要对每个类的每个图像进行稍微少于4秒的测试。对于20个Pascal类,这使我们的框架在测试过程中更快。
我们使用官方的评估服务器来评估结果。这个评估是独立的,因为测试数据还没有发布。我们与比赛的前四名相比。请注意,前四名中的所有方法都是基于穷举搜索,使用基于部分的[12]模型的变体和HOG-features,而我们的方法通过使用选择性搜索和Bag-of-Words特性有很大的不同。结果如表7所示。
在这里插入图片描述
结果表明,该方法对飞机类、猫类、牛类、桌子类、狗类、植物类、羊类、沙发类、电视类的分类效果最好。除了桌子、沙发和电视,这些类都是非刚性的。这在预料之中,因为从理论上讲,词袋模型比hog特性更适合于这些类。确实,对于刚性的类,自行车,瓶子,公共汽车,汽车,人,和火车,基于hog的方法表现得更好。唯一的例外是刚性的类tv。这可能是因为我们的选择性搜索在定位电视方面表现良好,参见图6。
在2011年Pascal挑战赛中,有几个参赛作品的得分明显高于我们的参赛作品。这些方法使用词袋作为其基于部件的模型找到的位置的附加信息,从而获得更好的检测精度。然而,有趣的是,通过使用单词袋来检测位置,我们的方法实现了对许多类更高的总召回率[10]。
最后,我们的选择性搜索使得参与ImageNet Large Scale Visual Recognition Challenge 2011 (ILSVRC2011)的检测任务成为可能,如表8所示。该数据集包含1,229,413张训练图像和100,000张测试图像,包含1,000个不同的对象类别。可以加速测试,因为可以对所有类重复使用从选择性搜索位置提取的特性。例如,使用[30]的快速词袋框架,提取sift描述符加上两个颜色变体的时间需要6.7秒,而对可视单词的赋值需要1.7秒。使用1x1、2x2和3x3的空间金字塔分割需要14秒来获得所有172,032个维度特征。金字塔级别的级联分类每个类需要0.3秒。对于1000个类,测试每个图像的整个过程需要323秒。相比之下,使用基于部件的[12]框架,每个类每个图像需要3.9秒,因此每个图像的测试时间为3900秒。这清楚地表明,减少的位置数量有助于检测更多的类。
在这里插入图片描述
我们得出的结论是,与穷举搜索相比,选择性搜索能够更好地使用更昂贵的特性和分类器,并且随着类数量的增加可以更好地扩展。

5.4 Pascal VOC 2012

因为Pacal VOC 2012是最新的,也可能是最后的VOC数据集,我们简要介绍了这个数据集的结果,以便与我们未来的工作进行比较。我们展示了使用TRAIN+VAL数据集的边框的质量,TRAIN+VAL数据集的分割部分的片段的质量,我们的定位框架在使用官方评估服务器的测试集上使用1x1、2x2、3x3和4x4的空间金字塔的质量。
定位质量结果见表9。我们可以看到,对于边框定位,结果略高于Pascal VOC 2007。然而,对于细分市场,结果更糟。这主要是因为2012年的分割集要困难得多。
在这里插入图片描述
在2012年的检测挑战中,MAP为0.350。这类似于在Pascal VOC 2010上获得的0.351MAP。

5.5 定位质量的上限

在这个实验中,我们研究了我们的选择性搜索位置在识别词袋特征的准确性方面与最佳位置的接近程度。我们在Pascal VOC 2007测试集上做了这个。
在这里插入图片描述
图9中的红线显示了使用质量选择搜索方法的前n个方框时,我们的目标识别系统的MAP得分。最初使用前500个对象位置,MAP为0.283,MABO为0.758。使用前3000个对象位置(MABO值为0.855)时,MAP迅速增加到0.356,然后结束于使用所有10,097个对象位置(MABO值为0.883)的0.360MAP。
洋红色的线表示我们的对象识别系统的性能,如果我们将金标准对象位置包含到我们的假设集中,表示一个“完美”质量的对象假设集,MABO评分为1。当仅使用金标准框时,得到的MAP为0.592,这是我们的目标识别系统的上限。然而,这一分数迅速下降到0.437MAP当使用最少500个位置每张图片。值得注意的是,当所有10,079个框都被使用时,性能下降到0.377MAP,只比不包含金标准时多0.017MAP。这表明,在10,000个目标位置上,我们的假设集接近于我们的识别框架所能达到的最优水平。最有可能的解释是我们使用了SIFT,它被设计为移位不变量[21]。这使得图5所示的近似框仍然足够好。然而,10,000个盒子的完美对象假设集与我们的假设集之间的小差距表明,我们已经到达了这样一个点,即词袋的不变性程度可能会产生不利影响,而不是有利影响。
随着位置数量的增加,完美假设集的MAP减少是由于问题难度的增加:边框越多,变异性越大,使得目标识别问题更加困难。之前我们假设穷举搜索会检查图像中所有可能的位置,这使得目标识别问题变得困难。为了测试选择性搜索是否缓解了这个问题,我们还将我们的bag -of - words对象识别系统应用于穷举搜索,使用[12]的位置。这个结果为0.336的MAP和0.829的MABO,每个类的对象位置数量是100,000。相同的MABO是使用2000个地点和选择性搜索得到的。在2000个位置,目标识别精度为0.347。这表明,通过减少位置上可能的变化,选择性搜索确实比穷举搜索更容易解决问题。
综上所述,目标假设与目标识别的准确性的质量和数量之间存在权衡关系。高质量的物体位置是识别物体的首要条件。能够在不牺牲质量的情况下对更少的对象假设进行抽样,使得分类问题更容易解决,并有助于改进结果。值得注意的是,在合理的10,000个位置上,我们的目标假设集对于我们的词袋识别系统来说是接近最优的。这表明,我们的定位质量如此之高,以至于我们现在需要比通常在词袋中发现的具有更高辨别力的特征。

6. 结论

本文提出了一种适合于选择性搜索的分割方法。我们观察到,图像具有固有的层次性,一个区域形成一个对象有各种各样的原因。因此,一个自底向上的分组算法永远不可能捕获所有可能的对象位置。为了解决这个问题,我们引入了选择性搜索,其主要思想是使用一组不同的互补和分层分组策略。这使得选择性搜索稳定、健壮,并且独立于对象类,其中对象类型从刚性的(例如car)到非刚性的(例如cat),理论上也包括无定形的(例如water)。
在对象窗口方面,结果表明我们的算法优于[2]的“对象性”,其中我们的快速选择性搜索在2134个位置达到了0.804的平均最佳重叠质量。与[4,9]相比,我们的算法在生成的最多790个位置的窗口(约0.790 MABO)的质量和数量之间有类似的权衡,这是它们生成的最大值。但是我们的算法要快13到59倍。此外,它为每个图像创建了多达10,097个位置,从而产生高达0.879的MABO。
在目标区域方面,我们的算法与[4,9]相结合,在质量上有了相当大的提升(MABO从0.730增加到0.758),这表明,按照我们的多样化范例,算法仍有改进的空间。
最后,我们证明了选择性搜索可以成功地用于创建一个良好的基于词袋的定位和识别系统。事实上,我们证明了我们的选择性搜索位置的质量接近于我们基于词袋的目标识别的最优版本。

发布了1 篇原创文章 · 获赞 0 · 访问量 281

猜你喜欢

转载自blog.csdn.net/qq_35024702/article/details/105035444
今日推荐