论文翻译:Higher Order Potentials in End-To-End Trainable Conditional Ran-dom Fields

来源:CoRR,abs,2015

Abstract

       我们利用深度学习技术来解决语义分割的问题。大多数语义分割系统包括一个条件随机场(CRF)模型,以产生与图像的视觉特征一致的结构化输出。随着近期深度学习的进展,在深度神经网络中执行CRF推断以促进CRF与逐像素卷积神经网络(CNN)分类器的联合学习变得越来越普遍。
      虽然基本CRF只使用一元和两两潜在的电势,但已经表明,在具有两个以上节点的派系上定义的更高阶势的添加可以导致更好的分割结果。在本文中,我们展示了两种类型的高阶势,即基于物体检测的电位和基于超像素的电位,可以被包括在嵌入深度网络的CRF中。我们设计这些更高阶的势能以允许推理高效和可微分的平均场算法,使得我们可以在深度网络中实现我们的CRF模型作为堆叠层。因此,我们丰富的CRF模型的所有参数可以在整个网络的端到端训练期间与CNN分类器联合学习。随着这些可训练的高阶势能的引入,我们发现结果显着改善。

1. Introduction

        语义分割包括为图像中的每个像素分配一个可视对象类标签,从而为每个分段带来语义含义的分割。它也可以被看作是识别和描绘图像中物体的任务。虽然强大的像素级分类器对于获得高精度的任务至关重要,但强化图像视觉特征的语义分割输出的一致性也是非常重要的。例如,分割边界通常应该与图像中的强边缘重合,而图像中颜色变化很小的小区域应该具有相同的标签。

      最近在深度学习方面的进展使得研究人员能够在卷积神经网络(CNN)中创建具有自动学习功能的更强大的分类器[24,40,31]。这导致了广泛使用的基准如PASCAL VOC [10]的语义分割准确性有了很大的提高。 CNN分类器现在被认为是用于语义分割的像素级分类器的标准选择。
      另一方面,概率图形模型一直流行用于标签的结构化预测,其中约束条件实施标签一致性。条件随机场(CRFs)是最常见的框架,各个作者[25,27,43]基于更高阶的团簇潜力开发了丰富的表达模型,以提高语义分割的性能。
      虽然一些深度学习方法在语义分割方面表现出令人印象深刻的性能,但没有纳入图形模型[31,17],目前实现最先进性能的方法[30,46,28,4]都将图形模型纳入深层学习框架的某种形式。然而,我们观察到已经被纳入到深度学习技术中的CRF仍然是相当简陋的,因为它们只包含一元和二元的潜能[46]。在本文中,我们表明,当使用平均场推断时,精心设计的高阶势(CRFs定义在由两个以上节点组成的势能上)也可以被建模为CNN层。 CNN中执行CRF推断的优点是,在整个系统的端到端训练期间,可以实现CNN分类器权重和CRF参数的联合优化。直觉上,分类器和图形模型在联合训练期间学习彼此最佳地协作。
      我们在嵌入深度网络的CRF中引入两种高阶势能:基于物体检测的势能和基于超像素的势能。使用物体检测电位的主要思想是使用现成的物体检测器的输出作为寻找图像分割的附加语义提示。直觉上,具有高召回率的对象检测器可以通过查找出现在图像中的对象来帮助语义分割算法。如图1所示,当我们有一个自信的探测器响应时,我们的方法能够从不良分割单元恢复。然而,由于CRF推断识别并拒绝与CRF中存在的其他类型的能量不相符的错误检测,所以我们的方法对于由对象检测器识别的误报是鲁棒的。此外,我们的CRF推断重新提供了一个物体检测器的置信度输出,我们表明这反过来帮助物体检测器通过拒绝与图像的语义分割不一致的误报来提高其整体准确性。
      基于超像素的高阶势能鼓励通过超分辨率获得的超像素的标签一致性。这是由超像素定义的区域可能包含来自同一视觉对象的像素的事实所驱动的。这个公式再次违背了这个假设,并且在最初的超像素生成步骤中出现错误。在实践中,我们注意到,基于超像素的电位有效地去除了与周围像素的正确标签不一致的伪标签的小区域(图1c)。
      我们评估了PASCAL VOC 2012语义分段基准和Cityscapes数据集的更高阶潜力,以显示仅使用一元和二元电位的CRF的显着改进。

2. Related Work

       在深度学习变得突出之前,语义分割用密集的手工特征来执行,这些特征被馈送到每个像素或区域分类器中[39]。由这些分类器做出的个别预测往往是嘈杂的,因为它们缺乏全局上下文,因此被CRF后处理以改进结果,利用先前的知识,例如附近的像素以及相似的像素外观,很可能会共享同一个类的标签。
      CRF模型[39]最初只包含一个8邻域中的一元和两两项,Kohli等人显示可能导致收缩偏差[20]。然而,随后提出了对该模型的许多改进,包括:密集连接的成对电势,促进所有图像像素对之间的相互作用[22],为了捕获更多的上下文而制定定义在超过两个节点的集合上的高阶势[20,25] ,建模目标类别的共现[26,34,15],并利用目标探测器的结果[27,45]。
      深度学习方面的最新进展使我们能够用专门为语义分割学习的特征代替手工制作的特征。这些表示的优势在[31]中得到了阐述,他们在不使用任何CRF后处理的情况下比之前的手工方法取得了显着的改进。文献[4]的作者进一步改进了分割性能,这是通过后处理CNN的CRF结果而获得的。最近的研究[46,28,38,30]进一步将CRF作为深层网络中的层,并通过反向传播学习了CRF和CNN的参数。
      在对常规CRF模型的改进方面,Ladicky [27]提出使用现成的对象检测器来提供语义分割的额外提示。与其他改进边界框检测以产生分割的方法[17,44]不同,该方法使用检测器输出作为软约束,并且因此可以忽略由对象检测器产生的错误。然而,他们的表述使用了图形切割推理,这可能是由于没有密集的成对电势。
      我们用与[27]不同的方式来表示检测潜力,以便表示场推断。平均场允许用密集的成对连接进行推理,从而大大提高了准确度[22,4,46]。此外,与我们潜力相关的平均野外更新是可区分的,因此可以在我们的端到端可训练架构中学习其参数。对象检测器也被[45]和[41]所采用,他们也模拟了描述对象假设被接受与否的程度的变量。这被[45]和[41]用来重新定位原始检测,从而提高整体检测性能。我们在模型中采用了类似的技术。
      在一个单独的轨道上,[6]利用对象检测的基本事实来弱监督深度神经网络的语义分割训练,从而利用了比分割有更多的对象检测训练数据的事实。古尔德等。 [16]使用语义分割来提出区域检测。通过在图形模型中加强分割区域,对象检测和对象实例之间的一致性,检测和分割两个任务在一个统一的模型中联合执行。然而,贪婪的移动算法被用于推断。这种不可区分的算法尚未被纳入深度学习框架。
      我们也注意到,虽然语义分割问题主要是用像素表示的[39,31,46],但有些用超像素表示[2,3,11,7]。超像素可以捕获比单个像素更多的上下文,如果考虑超像素之间的成对相互作用而不是单个像素,计算成本也可以降低[45]。然而,这样的超像素表示假定片段与图像中的对象共享边界,这并不总是正确的。因此,一些作者[25,43]已经使用了超级像素上定义的高阶势,鼓励地区上的标签一致性,但是并没有严格执行。这种方法还允许多层超级像素(不一定形成层次结构)被集成。我们的配方在端到端可训练的CNN中使用这种更高阶的潜能。
      除了语义分割之外,图形模型还被用于其他领域,如姿态估计[42],变形部分模型[14]和群体活动识别[8]等。 但是,这些作品使用的模型的性质与我们的差异很大。 一些通过图形模型推理为参数优化提倡梯度反向传播的早期工作包括[36,9,23]和[18]。
       我们的工作区别于上述工作,因为据我们所知,我们是第一个提出和进行一个彻底的实验调查的高阶潜力的基础上的检测输出和超像素分割,在CRF是学习端到端 在一个深度网络。

7. Conclusion

      我们提出了一个具有两种更高阶潜能的CRF模型来解决语义分割问题。第一个潜力是基于直观的思想,即对象检测可以为语义分割提供有用的线索。我们对这种潜力的表述能够自动拒绝与语义分割完全不一致的虚假对象检测。其次,我们使用了鼓励超像素具有一致标签的潜力。这两个新的潜力可以与CRF中通常的一元和两两潜力共存。
      重要的是,我们表明,在存在新的高阶势的情况下仍然有可能进行有效的平均场推断,并推导出平均场更新的明确形式及其差异。这使得我们能够将新的CRF模型作为CNN层的堆叠来实现,并且使用像素方式的CNN分类器在统一的深度网络中端对端地进行训练。我们通过实验证明,增加更高阶的势能会显着提高语义分割的准确性。

猜你喜欢

转载自blog.csdn.net/scut_salmon/article/details/78986575