Piex Objectness 论文翻译

1、摘要

我们提出了一个面向前景对象分割的端到端学习框架。考虑到一个单一的新图像,我们的方法为所有“对象”区域(甚至是在训练中从未见过的对象类别)生成一个像素级的掩码。我们将此任务作为一个结构化的预测问题,将一个前景/背景标签分配给每个像素,并使用一个深度完整的卷积网络实现。我们的想法的关键是通过混合图像级别的对象类别示例和相对较少的具有边界级别注释的图像进行培训。我们的方法极大地改进了ImageNet和MIT对象发现数据集的前景分割。此外,在超过100万张图片中,我们展示了它在用于训练的前景图中不可见的片段对象分类。最后,我们展示了我们的方法对图像检索和图像重定向的好处,当我们提供高质量的前景地图时,这两种方法都很有用。

引言

前景对象分割是一个基本的视觉问题,有几个应用。例如,一个视觉搜索系统可以使用前景分割来关注查询图像中的重要对象,而忽略背景杂波。它也是图形应用程序的一个先决条件,如rotoscoping和图像重定向。了解对象的空间范围也有利于下游视觉任务,如场景理解、标题生成和汇总。在任何这样的设置中,以绝对独立的方式分割“通用”对象是至关重要的。也就是说,系统必须能够识别在训练过程中从未遇到过的对象的对象边界。

今天,通用对象分割有两种主要策略:显著性和对象建议。这两种策略都利用了可以从图像中学习的属性,并将其概括为不可见的对象(例如,定义良好的边界、与环境的差异、形状提示等)。显著性方法识别可能引起人类注意的区域。它们要么产生高度局部性的注意力地图[5], [6], [7], [8],要么完全分割出[9], [10],[11], [12], [13], [14], [15], [16]。Saliency关注的是突出的区域,而不是所有前景对象的情况。

另一种方法是,对象建议方法学习在图像中[17], [18], [19],[20], [21], [22], [23], [24]中对所有对象进行本地化。其目的是为了以低精度的代价获得高的召回率,即它们必须生成大量的提案(通常是10世纪)以覆盖图像中的所有对象。这通常涉及到一个多阶段的过程:首先提取自底向上的段,然后根据它们的“objec”程度打分。依赖于自底向上的段可以是有限的,因为底层的线索可能无法为复杂的对象拉出连续的区域。此外,在实践中,所附的分数并不那么可靠,以至于人们可以完全依赖于最上面的几项建议。

基于这些缺点,我们引入了像素目标,这是一种新的通用前景分割方法。给定一个新的图像,目标是确定每个像素是前景对象的一部分的可能性(相对于背景或“东西”类,如草地、天空、人行道等)。我们对通用前景对象的定义遵循了对象建议文献[25], [17], [18],[19], [20], [21], [22]中常用的方法。像素的目的是对窗口级的目标进行一般化[25]。它量化了一个像素是否属于任何类的对象,并且在训练期间不可见的对象也应该是高的。参见图1。

这将问题与传统的识别或“语义分割”[1], [2], [3], [4]区分开来,即系统专门针对预定义的类别进行训练,并且不具备对任何其他类别进行细分的能力。

图1:我们的方法预测了每个像素(第二行)和一个前景分割(第三行)的目标图。从左到右:它可以准确地处理遮挡对象、与背景颜色相似的瘦对象、人工对象,甚至多个对象。它是类独立的,并且不局限于只检测特定对象。
我们将前景对象分割作为一个统一的结构化学习问题,并通过训练一个深度完整的卷积网络来生成密集的(二进制)像素标签映射。考虑到处理任意对象的目标,人们可能期望在大量的类别中需要大量的预先注释的例子来学习通用的提示。然而,我们展示的是,有些令人惊讶的是,当对少数类别的显式边界级注释进行训练时,将它们合并成一个通用的“类对象”类时,像素对象会对数千个看不见的对象进行良好的概括。
这种泛化能力是由一个预先训练的分类网络中嵌入的目标性概念所推动的,在初始化过程中我们将其转移到我们的分割模型中。
我们的配方有一些关键的优点。首先,它不局限于突出突出的对象,就像在显著的对象检测中经常出现的情况[10], [11], [12], [13], [14], [15], [16]。第二,它不局限于只分割固定数量的对象类别,如监督语义分割[1], [2], [3], [4]。第三,不像今天的区域提案方法中典型的两阶段处理方法[17], [18], [19], [20], [21], [22],我们的方法统一学习“什么是一个好的区域”,学习“哪个像素属于一个区域”。因此,它不局限于自底向上的segmenter的有缺陷的区域。
通过大量的实验,我们证明了我们的模型对看不见的物体很好地推广。我们在具有挑战性的ImageNet[26]和MIT对象发现[27]数据集上获得了先进的性能。最后,我们展示了如何利用我们的分割,以有利于以对象为中心的图像检索和内容感知的图像大小调整。综上所述,我们做出如下新贡献:

  • 我们是第一个展示如何训练最先进的通用对象分割模型,而不需要从数千个不同的对象类别中进行大量的带注释的细分。
  • 我们的新提法既不局限于一组固定的类别(如语义分割),也不局限于引人注目的对象(如显著性)。它还统一了对分组和对象的学习,不像“建议”方法单独对待它们。
  • 通过广泛的结果3600 +类别和∼1图片,我们的模型推广到段成千上万的看不见的类别。没有其他之前的工作,包括最近的深入的显著性和对象的建议方法——显示了这一层次的概括。

相关工作

我们将相关的工作划分为两个顶级组:(1)提取对象掩码的方法,以及(2)从类别标记数据中学习的方法,并寻求在新图像中识别/细分这些特定类别。我们的方法适合第一组。

A.类别独立分割

交互式图像分割算法,例如流行的GrabCut[28],让人用边框或涂鸦来指导算法。这些方法是最适合的,当需要进行高精度的分割时,一些来自人类的指导是值得的。虽然有些方法试图尽量减少人类的参与[29], [30],但通常情况下,人类总是在循环中指导算法。相比之下,我们的模型完全是自动的,并在没有任何人类指导的情况下分割前景对象。

上面讨论的对象提案方法,可以以[20],[21], [22], [31]或区域[17], [18], [19], [23], [24]的形式,生成数千个通用对象的建议。产生成千上万的假设可以确保高的召回率,但往往会导致低精度的结果。虽然对目标检测有效,但在没有特定的知识的情况下,很难自动地从这个大的假设集合中过滤出准确的建议。相反,我们生成一个前景的单一假设作为最终的分割。我们的实验直接评估了我们的方法的优势。

在文献中,显著性模型也得到了广泛的研究。目标是识别可能吸引人类注意力的区域。虽然有些方法产生高度本地化的区域[5], [6], [7], [8],而另一些方法则完成[10], [11],[12], [13], [14], [15], [16]。虽然saliency关注的是“突出”的对象,但是我们的方法被设计成分割所有的前景对象,而不管它们是否在低层次的显著性方面突出。这是正确的,即使是基于深度学习的显著性方法[7], [6], [5], [15], [16],像我们一样,端到端训练,但对突出的对象进行优先级排序。

B.类具体分割

语义分割是指对对象进行联合识别和分割的任务,将每个像素划分为k个固定的类别。最近在深度学习方面的进展促使人们更加关注这项任务。最深层的语义分割模型包括完全卷积网络,它应用连续的卷积和汇聚层,然后在末端进行上行采样或反褶积运算[1], [2], [3], [4]。但是,这些方法是针对固定数量的类别进行训练的。我们是第一个证明完全卷积网络可以被训练来精确地分割任意的前景对象。虽然在训练中可以看到相对较少的类别,但是我们的模型对未见的类别进行了很好的推广(我们在ImageNet上演示了3624个类,只是其中的一小部分与我们的训练面具的来源PASCAL有重叠)。

弱监督的联合分割方法比语义分割方法使用更弱的监督。给定一批已知的包含相同对象类别的图像,它们在每个对象中分割对象。其思想是利用集合内的相似性来发现共同的前景。输出是像素级掩码[32], [33], [34], [35], [36], [27], [37]或边框[38],[39]。虽然联合分割是有用的,但它的性能受到集合内共享结构的限制;课堂内的观点和形状的变化构成了一个重大的挑战。此外,在大多数实际情况下,这种薄弱的监督是不可用的。像我们这样的独立的单图像分割模型更适用。

基于传播的方法将信息从带有人类标记的前景掩码的样本中传递[40], [41], [42], [43], [44]。它们通常在可能的前景区域和样本之间进行匹配。缺点是需要在测试时存储大量的范例数据,并为每个测试映像执行昂贵且可能有噪声的匹配过程。相比之下,我们的分割模型,一旦进行了端到端的训练,就非常有效地应用,并且不需要保留任何训练数据。

三、方法

我们的目标是设计一个模型,可以预测每个像素作为一个通用前景对象的可能性,而不是背景。基于[25]的术语,我们将我们的任务称为像素对象。我们使用这个名称来区分我们的任务与突出对象检测的相关问题(只寻求最引人注意的前景对象)和区域建议(寻找候选对象的区域列表)。我们将像素目标作为一个密集的标记问题,并提出一个基于卷积神经网络架构的解决方案,该架构支持端到端训练。

首先,我们将介绍我们的核心方法(III-A)。然后,我们将探索两个应用程序来说明像素对象的实用性(Sec, III-B)。

A.  预测像素对象

问题公式化:给定一个RGB图像的大小m×n×c作为输入,我们制定的任务前景对象分割一样人口标记图像中每个像素的“对象”或“背景”。因此像素的输出对象是一个二进制的地图尺寸m×n。

由于我们的目标是预测每个像素的目标,我们的模型应该预测一个像素级的地图,它与目标边界保持一致,并将其一般化,这样它就可以将高概率分配给那些不可见的对象类别。

密集的前地面标记训练数据的挑战:有可能,解决这两种挑战的一种方法是依赖一个包含大量不同对象类别的大型带注释的图像数据集,这些对象类别具有像素级的前景注解。但是,这样的数据集是不容易获得的。实际问题显然是最近大规模收集分割图像的努力。它们仅包含几十个类别的边界级注解(在PASCAL[45]中有20个,在COCO[46]中有80个),以及/或仅用于所有数据集图像的一小部分(ImageNet的1400万图像中0.03%的图像都有这样的掩码)。此外,这类注释的价格约为40万美元,从80类[46]假定工人获得最低工资的250万件对象实例中收集人类绘制的轮廓。为了对一个通用的前景对象分割系统进行天真的培训,人们可能会希望在更具有代表性的类别中使用前景标签,这表明启动注释成本是惊人的。

将目标的明确和含蓄的表述混合起来:这个挑战激励我们考虑一种不同的监督方法来学习通用的像素目标。我们的想法是利用明确的边界级注解和内隐的imagelevel对象类别注解来训练系统来预测像素的目标。从前者,系统将获得有关图像线索的直接信息,表明了通用的前景对象边界。从后者中,它将学习对象类型的广泛的对象,但不知道对象的边界在哪里。

为此,我们建议对前作背景的对象标记任务进行完全卷积神经网络的训练。我们使用一个强大的泛型图像表示来初始化网络,这些图像表示从数百万个被它们的对象类别标记的图像中学习,但是缺少任何前景注解。然后,我们对网络进行微调,生成密集的二进制分割图,使用相对较少的像素级的图像,这些图像来自于少量的对象类别。

由于预先训练的网络被训练来识别成千上万的物体,我们假设它的图像表示有一个强烈的反对性概念,即使它从来没有观察到任何的分割注释。与此同时,通过随后使用显式密集前景标签进行的训练,我们可以将该方法引导到标准对象分类网络不需要捕获的边界上的细粒度线索。这样,即使我们的模型接受了有限数量的对象类别,具有像素级的注解,我们期望它学习通用的表示有助于像素的目标。

具体地说,我们采用了一种深层的网络结构[4],它最初是为多类语义分割而设计的。我们通过在ImageNet上预先训练的权重来初始化它,它提供了一种用于对大约1,000个对象类别执行图像级分类的表示。接下来,我们使用一个适度大小的语义分割数据集,将其密集的语义掩码转换成二进制对象和背景掩码,将其所有的20个类别融合成一个超级类别(“通用对象”)。然后,我们对深度网络(ImageNet对象分类初始化)进行训练,使其在密集的前景像素标记任务上表现良好。我们的模型支持端到端培训。


图2:来自网络的激活图(VGG[47])对分类任务和我们的网络进行了训练,该网络与清晰的密集前景标签进行了微调。我们看到,分类网络已经学习了一些有目的的图像表示,但是在“过度”本地化的情况下。我们的网络加深了对像素的反对的概念,并捕获了关于边界的细粒度线索(最好在pdf中查看)。

为了说明这一协同作用,图2显示了从一个为ImageNet分类(中)和我们的网络(右)所训练的网络的激活图,通过对每个空间位置的最后一个卷积层(pool5)中的每个过滤器的特征响应进行总结。尽管在分类任务上训练的网络从来没有观察过任何细分,但当对象部分出现时,它们可以显示出高的激活响应,而对像岩石和道路这样的类块区域的反应较低。由于分类网络接受了数千个对象类别的训练,因此它们的激活响应相当普遍。但是,它们只响应对象的片段。在经过显式密集前景标签的训练后,我们的网络能够将具有鉴别性的对象部件的高激活响应扩展到整个对象。

例如,在图2中,分类网络只在熊的头部有一个高的激活响应,而我们的像素目标网络对整个熊体的响应是高的;同样的人。这支持了我们的假设,即训练分类任务的网络包含了一个合理但不完整的目标,尽管缺乏空间注释。通过随后使用显式密集的前景标签进行培训,我们可以转向针对标准对象分类网络不需要捕捉的边界的细粒度线索。

模型架构:我们将广泛使用的图像分类模型VGG-16网络[47],通过将其完全连通的层转化为卷积层,将其转化为一个完全卷积的网络[3], [4]。这使得网络能够接受任何大小的输入图像,并生成相应的稠密输出图。该网络由一堆卷积层组成,其中包含了混合池。所有大小3×3的卷积过滤器是除了最后卷积层由1×1曲线玲珑。每一个卷积层在被送入下一层之前,还会有一个“relu”的非线性。我们从vggnet中删除了1000路分类层,并将其替换为生成一个二进制掩码的2路层。损失是输出层中每个像素的交叉熵项之和。

vgg16网络由5个最大池组成。虽然适合分类,这将导致一个32×减少输出分辨率比原始图像。为了实现更细粒度的像素目标图,我们采用了[4]中提出的“孔”算法。特别地,我们将在最后两个混合池中进行的子采样替换为扩张的卷积[4]。这个方法参数是免费的,结果只有8×减少输出分辨率和仍然保留了大视场。然后我们使用双线性插值来恢复原始分辨率的前景图。更多细节见附录。

训练细节:为了生成明确的边界层训练数据,我们依靠1464帕斯卡2012年的分割训练图像[45]和[48]的附加注释,共计10582个训练图像。将20个对象标签丢弃,并将其映射到单个通用的“object-like”(前景)标签进行培训。我们使用[4]的Caffe实现来训练我们的模型。我们优化随机梯度,小批量的10张图片。通过对输入图像进行镜像,可以实现简单的数据增强。在每2000次迭代中使用1/10慢下来的基础学习速率为0.001。我们对网络进行了总计1万个迭代的培训;在现代的GPU上,总训练时间约为8小时。

B.利用像素对象

密集像素的目的有很多应用。在此,我们探讨了它如何帮助图像检索和内容感知图像重定向,这两种方法都要求对前景对象区域进行单一、高质量的估计。

对象感知的图像检索:首先,我们考虑像素的目的是如何帮助图像检索的。检索系统接受包含对象的查询图像,然后系统返回包含相同对象的图像的排序列表。这是一个有价值的应用程序,例如,允许基于对象的在线产品搜索。通常,检索系统从整个查询图像中提取图像特征。但是,这可能是有问题的,因为它可以检索具有相似背景的图像,特别是当兴趣对象很小的时候。我们的目标是使用像素对象来限制系统对前景对象(s)的关注,而不是整个图像。

为了实现这个想法,我们首先运行像素目标。为了减少假正分割,我们保留了最大的连通前景区域,如果它大于整个图像区域的6%。然后我们裁剪出最小的包围盒,并从整个包围盒中提取出特征。如果没有发现前景(在所有图像中大约占17%),我们从整个图像中提取图像特征。该方法应用于查询和数据库图像。为了对数据库图像进行排序,我们研究了两个图像表示。第一个只使用从边界框中提取的图像特征,第二个则将原始图像的特征与来自边界框的特征连接起来。

预先感知图像重定向:作为第二个应用程序,我们研究像素对象是如何增强图像重定向的。目标是调整图像的纵横比或大小,而不扭曲其重要的视觉概念。我们基于流行的Seam雕刻算法[49],通过动态规划消除了图像中最优的不规则形状路径,称为Seam。在[49]中,能量是根据图像梯度的大小来定义的。然而,梯度并不总是一个足够的能量函数,特别是当重要的视觉内容是非纹理或背景纹理时。

我们的思想是基于前景分割来保护语义上重要的视觉内容。为此,我们考虑了一个简单的接缝雕刻。我们定义一个基于高级语义的能量函数,而不是单独的低层次的图像特征。具体地说,我们第一次预测像素对象,然后我们规模前景段内的能量梯度g(s)(g + 1)×2。

四、结果

我们通过与文献中16个最近的方法进行比较,来评估像素的目的,并检查其对上述两个应用程序的效用。

数据集:我们使用三个数据集,通常用于评估图像中的前景对象分割:

•mit对象发现:该数据集包括飞机、汽车和马[27]。它通常用于评价弱监督的分割方法。这些图像主要是通过互联网搜索收集的,而数据集采用了逐像素的地面真值分割掩码。

•imagenet-localization:我们进行大规模的评估我们的方法使用ImageNet[50](m图像边框,∼3624类)。这个数据集的多样性让我们可以测试我们的方法的泛化能力。

•ImageNet-:这个数据集从445个ImageNet类中包含4,276个图像,像素为[43]。

基线:我们比较这些最新的方法:

•显著性检测:我们比较了四种显著的目标检测方法[9], [12], [15], [16],选择了它们的效率和最先进的性能。所有这些方法都是为了对突出的对象进行完整的分割。见第5条[9])和输出连续显著性图,然后按每幅图像的阈值进行阈值获取。

分割。

•对象提案:我们还比较了国家的提案算法、多尺度组合分组[18]和[23]。这些方法输出的是一般对象分割建议的排序列表。在每个图像中,top排名的建议被作为最后的前景分割进行评估。我们还比较了SalObj[14],它利用显著性将多个对象的建议从MCG合并到一个单一的前景中。

•弱监督的联合分割方法:这些方法依赖于额外的弱监管,即预先知道给定集合中的所有图像都共享一个公共对象类别[27], [37], [51], [34], [35], [39], [44]。注意,我们的方法缺少这种额外的监督。

评价指标:根据数据集,我们使用:(1)Jaccard评分:预测与地面真值分割掩码和(2)BBox-CorLoc评分之间标准的交叉-过联(IoU)度指标:根据PASCAL准则(i)正确地定位于一个边界框的对象的百分比。e IoU > 0.5)用于[39], [38]。

对于MIT和imagenet分割,我们使用分割掩码和评估使用Jaccard评分。对于imagenet -本地化,我们使用BBox-CorLoc度量来评估,从[39], [38]开始,这需要在我们的方法的输出周围设置一个紧密的包围盒。

A.前景对象分割结果。

MIT对象发现:首先我们在麻省理工学院的数据集[27]上呈现结果。我们对完整的数据集和在[27]中定义的子集进行单独的评估。我们将我们的方法与13种现有的最先进的方法进行比较[9], [12], [15], [16],对象提案生成[18], [23]+合并[14]和[27], [37], [51], [34], [35], [44]。我们比较了联合分割基线的作者报告结果,并使用由作者提供的关于显著性和对象建议基线的软件。

表1显示了结果。我们提出的方法优于几种最先进的显著性和对象建议方法——包括最近的深度学习技术[15], [16], [23]

Methods

MIT dataset (subset)

MIT dataset (full)

Airplane

Car

Horse

Airplane

Car

Horse

# Images

82

89

93

470

1208

810

 

Joint Segmentation

 

 

 

Joulin et al. [51]

15.36

37.15

30.16

n/a

n/a

n/a

Joulin et al. [34]

11.72

35.15

29.53

n/a

n/a

n/a

Kim et al. [35]

7.9

0.04

6.43

n/a

n/a

n/a

Rubinstein et al. [27]

55.81

64.42

51.65

55.62

63.35

53.88

Chen et al. [37]

54.62

69.2

44.46

60.87

62.74

60.23

Jain et al. [44]

58.65

66.47

53.57

62.27

65.3

55.41

 

 

Saliency

 

 

 

Jiang et al. [12]

37.22

55.22

47.02

41.52

54.34

49.67

Zhang et al. [9]

51.84

46.61

39.52

54.09

47.38

44.12

DeepMC [15]

41.75

59.16

39.34

42.84

58.13

41.85

DeepSaliency [16]

69.11

83.48

57.61

69.11

83.48

67.26

 

Object Proposals

 

 

 

MCG [18]

32.02

54.21

37.85

35.32

52.98

40.44

DeepMask [23]

71.81

67.01

58.80

68.89

65.4

62.61

SalObj [14]

53.91

58.03

47.42

55.31

55.83

49.13

  Ours          66.43   85.07  60.85    66.18   84.80  64.90

表I: MIT对象发现数据集的定量结果。我们的方法优于几种最先进的方法,用于显著性检测、对象建议和联合分割。(度量:Jaccard分数)。

我们在联合分割方法上的收获可以说更加令人印象深刻,因为我们的模型只是在一个时间内分割一个单一的图像-没有弱的监督!- - -仍然大大优于所有微弱的监督技术。我们强调,除了对公共对象进行分割的形式较弱的监督之外,以往表现最好的方法[44]也利用了预先训练的深层网络;我们使用的总监管要比[44]严格得多,但仍表现得更好。此外,大多数联合分割方法都涉及昂贵的步骤,如密集通信[27]或区域匹配[44],这些步骤甚至可以花费数小时,即使是对100幅图像进行适当的收集。相比之下,我们的方法直接在一个转发通道上输出最终的分割,每幅图像只需要0.6秒的时间来完成整个处理。

imagenet -本地化:接下来我们将在imagenet -本地化数据集上显示结果。这涉及到从3624个对象类别中对大约100万张图像进行测试。这也让我们可以测试我们的方法是如何一般化到不可见的类别,即。,该方法在训练中看不到前景示例。

表II(左)显示结果。在对所有类别进行评估时,我们将我们的方法与5种方法进行比较,这些方法报告了这个数据集上的结果[25], [39], [44],或者是可扩展的[12], [18]。我们发现我们的方法显著地改进了最先进的技术。显著性和建议书的方法[12], [25], [18]导致了较差的分割。我们的方法也明显优于联合分割方法[39],[44],这是目前在该数据集上的最佳执行方法。从图像的实际数量来看,我们的增益转化为正确分割了42900个图像,而不是[44](像我们一样,利用了ImageNet特征)和83,800个图像比[39]。这反映了我们在最先进的基准线上取得的整体收益。

我们所学习的分割模型是否只识别在训练过程中看到的前景对象,还是可以归纳为不可见的对象类别?从直观上看,ImageNet有这么多不同的类别,如果我们的方法只是对20个PASCAL类别进行了过度拟合,就不可能获得这样的结果。为了验证这一直觉,我们接下来将那些与PASCAL对象直接相关的ImageNet类别排除,通过匹配两个数据集的synset。这个结果总共有3149个类别,它们都是ImageNet(“非pascal”)的专有类别。数据统计数据见表二(左)。

我们只看到了性能的很小的下降;我们的方法仍然显著地超过了显著性和对象建议基线。这是一个重要的结果,因为在训练过程中,分割模型从来没有在这些类别中看到任何密集的物体面具。从预训练的vggm分类网络的权重中,我们的模型能够学习到它之前的信念之间的转换,它看起来像一个对象,以完成密集的前景分割。

图像分割:最后,我们大规模地测量像素的分割质量。为此,我们使用[43]提供的地面真相面具,从445个ImageNet类别中提供4276个图像。目前最好的报告结果来自于[43]的分段传播方法。我们发现,DeepSaliency[16]和DeepMask[23]进一步改进了它。请注意,与我们一样,DeepSaliency[16]也使用PASCAL[45]。DeepMask[23]使用一个更大的COCO[46]数据集进行训练。我们的方法优于所有方法,显著提高了最先进的技术(见表II(右))。这表明,我们的方法不仅可以推广到数以千计的对象类别,而且还能产生高质量的对象分割。

像素的对象性与显著性:突出的对象分割方法在前景对象不突出的情况下可能会失败。另一方面,像素对象的设计是为了寻找对象,即使它们不是突出的。为了验证这一假设,我们将图像分割数据集[43]中的所有图像排序为前台对象与背景的重叠。为此,我们利用地真分割来计算一个30-binRGB颜色直方图的图像。

前景和背景的可分性度量。

图5根据他们的可分性得分,对不同的图像进行分组,并显示出我们的方法对每个组的四种最先进的显著性方法的最小和最大增益[9], [12], [15], [16]。较低的可分性分数意味着前景和背景有强烈的重叠,因此物体不突出。首先,我们发现,我们的方法在所有组中都有正的增益,表明它在每种情况下都优于其他所有的显著性方法。其次,我们发现分数越低,我们的收益就越高。这说明当前景和背景不容易分离时,显著性的方法要弱得多。另一方面,不管前景对象是否突出,像素目标都可以很好地工作。我们的平均收益超过了DeepSaliency[16],是在0.2(1320幅图像)中通过阈值计算得到的子集的IoU分数,相对于整个数据集的3.1%的IoU分数。

图4直观地说明了这一点。即使在对象不从背景中突出的情况下,即使是最佳的执行显著性方法[16]也会失败。相比之下,即使在这些图像中,像素对象也成功地找到了完整的对象。

定性结果:图3显示了帕斯卡和非帕斯卡类别的ImageNet的定性结果。像素目标准确地分割了两个集合的前景对象。非pascal类的例子突出了其强大的泛化能力。我们可以通过尺度和外观变化来分割对象,包括图像中的多个对象。它甚至可以分割人造物体,这与帕斯卡的物体特别不同(见附录,以获得更多的例子)。下面一行显示了失败案例。我们的模型在分割以场景为中心的图像方面有更多的困难,在这些图像中,很难清楚地识别前景对象。

对下游应用程序的影响。

接下来,我们报告的结果是利用像素目标来完成两个下游任务。

对象清楚图像检索

首先,我们考虑了在Sec中定义的基于对象的图像检索任务。我们使用ILSVRC2012[50]验证集,其中包含50K图像和1,000个对象类,每个类有50个图像。作为一个评价指标,我们使用平均平均精度(mAP)。我们提取VGGNet[47]特性,并使用余弦距离来对检索到的图像进行排序。

我们比较了两种基线的完整图像,它根据从整个图像中提取的特征来排列图像,以及2)Top提案(TP),它根据从顶级的MCG[18]提案中提取的特征对图像进行排序。对于我们的方法和顶部建议基线,我们检查两个图像表示。第一个直接使用从包含前景或顶部建议的区域提取的特征(表示FG)。第二个表示将提取的特征与从整个图像中提取的图像特征连接起来(表示FF)。

表三显示了结果。我们使用FF的方法得到了最好的结果。我们的方法比许多ImageNet类的基线都要高。图6更接近于我们方法在每个类的平均精度上的分布。我们观察到,我们的方法在以对象为中心的类(如动物)上执行得非常好,但是在以场景为中心的类(lakeshore, se岸上等等)的基线上有有限的改进。为了验证我们的假设,我们将结果隔离在ImageNet的前400个对象类中,这些对象主要包含以对象为中心的类,而不是以场景为中心的对象。在第一个400个对象类中,我们的方法比两个基线都要大得多(见附录)。这说明了我们检索对象的方法的价值,这些对象通常包含不同的背景,因此从精确的像素对象中获得更多的好处。

为了进一步了解我们的方法的优越性能,我们展示了我们的方法和图7中完整的图像基线的前5个最近邻。在第一个示例(第一和第二行)中,查询图像包含一个小鸟。我们的方法可以分割鸟和检索相关的图像,也包括鸟类。与此相反,基线是由于混合了背景而引起的噪音。最后两行显示了一个情况,至少根据ImageNet标签,我们的方法失败了。我们的方法将person分割,然后从不同的场景中检索包含一个人的图像,而基线则关注整个图像并检索类似的场景。

前台注意形象重新定位目标

接下来,我们将展示如何通过像素目标的预测来增强Seam雕刻的重新定位。我们使用了来自2014年微软COCO cap挑战测试图像的500张图片的随机子集[46]进行实验。

图8显示了示例结果。为了便于参考,我们还比较了使用图像梯度作为能量函数的原始的Seam雕刻(SC)算法[49]。这两种方法都被指示将源图像的大小调整为原来大小的2/3。由于提出的前景分割,我们的方法成功地保留了重要的视觉内容(例如,火车、公共汽车、人和狗),同时减少了背景的内容。基线产生的图像与重要的物体是扭曲的,因为梯度强度是一个不充分的指标,对于感知的内容,特别是当背景是纹理的时候。最右边的列是我们在一个以场景为中心的图像上的失败案例,它不包含任何突出的对象。

为了量化所有500幅图像的结果,我们对亚马逊机械土耳其人进行了一项人类研究。我们提出了由我们的方法和基线产生的任意顺序的图像对,并要求工人对哪个图像更有可能被计算机操纵。每个图像对由三个不同的工作人员进行评估。工作人员发现,我们的方法所产生的38.53%的时间图像更有可能是被计算机操纵的,48.87%的时间是基线;两种方法都有12.60%的时间。因此,与非专家进行的人员评估表明,我们的方法优于基线。此外,我们还请一位熟悉图像重定向的视觉专家——但不参与这个项目——以与人群工作人员相同的界面来获得500个图像对。视觉专家发现我们的方法在78%的图像中表现更好,基线更好,13%,两种方法都有9%的图像。这进一步证实了我们的前景预测可以通过定义一个更具语义意义的能量函数来增强图像的重新定位。

五、结论

我们提出了一个端到端学习框架,用于在图像中分割通用前景对象。我们的结果证明了它的有效性,在多个数据集上有了显著的改进。我们的研究结果还表明,像素对象对成千上万的不可见的对象类别进行了很好的概括。我们的模型所产生的前景分割也被证明在提高图像检索和图像处理任务的性能方面是非常有效的,这有助于说明现实世界对高质量、单一图像、非交互式前景分割的需求。





猜你喜欢

转载自blog.csdn.net/qq_16761599/article/details/80480865
今日推荐