论文翻译:Conditional Random Fields as Recurrent Neural Networks.

CVPR2015

Abstract

     诸如语义分割之类的像素级标记任务在图像理解中起着核心作用。最近的方法试图利用图像识别的深度学习技术的能力来处理像素级的标记任务。这种方法的一个主要问题是深度学习技术描绘视觉对象的能力有限。为了解决这个问题,我们引入了一种卷积神经网络的新形式,它结合了卷积神经网络(CNNs)和基于条件随机场(CRFs)的概率图形建模的优势。为此,我们将具有高斯成对势函数的条件随机场作为递归神经网络的均值场近似推导。然后将这个称为CRF-RNN的网络作为CNN的一部分插入,以获得具有CNN和CRF的理想特性的深度网络。重要的是,我们的系统将CRF建模与CNN完全集成在一起,使得使用通常的反向传播算法来端到端地训练整个深度网络成为可能,避免了用于对象划分的离线后处理方法。
    我们将所提出的方法应用于语义图像分割问题,获得了具有挑战性的Pascal VOC 2012分割基准的最佳结果。

1. Introduction

     诸如语义图像分割或深度估计的低级计算机视觉问题通常涉及为图像中的每个像素分配标签。尽管用于分类各个像素的特征表示在此任务中起着重要的作用,但是在分配标签以便获得准确和精确的结果的同时,考虑诸如图像边缘,外观一致性和空间一致性之类的因素同样重要。
    设计强有力的特征表示是像素级标签问题中的关键挑战。有关此主题的工作包括:TextonBoost [52],TextonForest [51]和基于随机森林的分类器[50]。近年来,有监督的深度学习方法如大规模深度卷积神经网络(CNNs)已经在许多高级计算机视觉任务(如图像识别[31]和目标检测[20])方面取得了巨大的成功。这促使人们探索使用CNN来解决像素级标签问题。关键的见解是为像素级标签任务端到端学习强大的特征表示,而不是用启发式参数调整手工制作特征。事实上,包括特别有趣的作品FCN [37]和DeepLab [10]在内的一些最近的方法已经通过将最先进的基于CNN的图像分类器适应于语义分割问题而显示出显着的准确性提升。
    然而,在为诸如对象识别等高级计算机视觉任务而设计的CNNs适应像素级标记任务方面存在重大挑战。首先,传统的CNN具有大容量的卷积滤波器,因此在重构结构以产生像素级标签时会产生粗糙的输出[37]。在CNN中存在最大汇聚层进一步减少了获得精细分割输出的机会[10]。例如,这可能在语义分割任务中导致非尖锐的边界和类似blob的形状。其次,CNN缺乏促使相似像素之间的标签一致性的平滑约束,以及标签输出的空间和外观一致性。缺乏这样的平滑性约束可能会导致分割输出中的对象划分较差和小的虚假区域[59,58,32,39]。
    在深度学习技术的进展的单独轨道上,概率图形模型已经被开发成为提高像素级标记任务的准确性的有效方法。特别是,马尔可夫随机场(MRF)及其变体条件随机场(CRF)在这一领域已经取得了广泛的成功[32,29],并已成为计算机视觉中最成功的图形模型之一。 CRF推理语义标注的关键思想是将标签分配问题作为一个概率推理问题来描述,这个问题包含了类似像素之间的标签一致性等假设。 CRF推断能够改善弱和粗糙的像素级标签预测,以产生清晰的边界和细粒度的分割。因此,可以直观地使用CRF来克服将CNN用于像素级标记任务的缺点。
    使用CRF来改进CNN产生的语义标注结果的一种方法是将CRF推断作为与CNN训练相分离的后处理步骤[10]。可以说,这并没有充分利用通用报告格式的力量,因为它并没有与深度网络相结合。在这种设置中,深度网络在训练阶段不知道CRF。
    在本文中,我们提出了一个端到端的深度学习解决方案,用于像素级语义图像分割问题。我们的公式将CNN和基于CRF的图形模型的优势结合在一个统一的框架中。更具体地说,我们将具有高斯成对电势的稠密CRF的平均场近似推断表示为递归神经网络(RNN),其可以在正向传递中从传统的CNN提炼粗输出,而在训练期间将错误差分传递回到CNN 。重要的是,通过我们的表述,可以利用通常的反向传播算法对包括传统的CNN和用于CRF推断的RNN的整个深度网络进行端对端训练。
    可以说,经过适当的训练后,所提出的网络应该优于CRF推理被应用作为由预先训练的CNN产生的独立像素级预测的后处理方法的系统。我们的实验评估证实,事实确实如此。我们评估我们的网络在流行的Pascal VOC 2012基准测试中的表现,实现了74.7%的新的最新的精确度。

2. Related Work 

      在本节中,我们回顾利用深度学习和CNN进行低级计算机视觉任务的方法,重点放在语义图像分割上。已经提出了各种各样的方法来使用深度学习来处理语义图像分割任务。这些方法可以分为两个主要策略。
      第一种策略是基于利用单独的特征提取机制和利用图像边缘的图像分割[2,38]。该方案的一个代表性实例是应用CNN来提取有意义的特征,并使用超像素来说明图像的结构模式。两个代表性的例子是[19,38],其中作者首先从图像中获得超像素,然后使用特征提取过程中的每一个。这个策略的主要缺点是,无论特征提取过程有多好,最初提议中的错误(例如超像素)都可能导致较差的预测。 Pinheiro和Collobert [46]使用RNN来模拟场景解析过程中的空间依赖性。与他们的方法相反,我们表明,像CRF这样的典型图形模型可以被定义为一个RNN,形成一个深层网络的一部分,与CNN进行端到端的训练。
      第二种策略是直接从图像学习非线性模型到标签图。例如,在[17]中显示了这一点,作者用卷积层替换了CNN的最后一个完全连接的层,以保持空间信息。这个方向的一个重要贡献是[37],Long et al。使用完全卷积网络的概念,以及顶层获得有意义的特征用于物体识别的概念,而低层保持关于图像结构(例如边缘)的信息。在他们的工作中,从早期层到后期层的联系被用来结合这些线索。 Bell et al。 [5]和陈等人。 [10,41]使用CRF来细化从CNN获得的分割结果。 Bell et al。注重材料的识别和分割,而Chen等人报告了对语义图像分割的非常显着的改进。与这些将CRF推断作为独立于CNN训练的后处理步骤的工作相比,我们的方法是一个端到端的可训练网络,它在一个统一的深度网络中共同学习CNN和CRF的参数。
      使用神经网络预测结构化输出的工作可以在不同的领域找到。例如,Do等人[14]提出了一个方法来结合深度神经网络和马尔可夫网络序列标签任务。Jain等人[26]显示卷积神经网络可以像MRF / CRF方法那样在图像恢复应用中表现良好。另一个受益于CNN和结构性损失的领域是手写识别。在自然语言处理中,姚等人[60]证明,通过引入CRF模型的元素,可以显著提高基于RNN的单词标注器的性能。在[6]中,作者将CNN与隐马尔可夫模型结合起来,而最近,Peng等人[45]使用CRF的修改版本。与这一系列作品相关[25],CNN和CRF联合模型被用于自然图像的文本识别。 Tompson等人[57]显示了CNN和MRF联合训练用于人体姿态估计,而陈等人。 [11]以类似的方法侧重于图像分类问题。另一个突出的工作是[21],其中作者表示可变形零件模型,一种MRF,作为神经网络中的一个层次。在我们的方法中,我们将一个不同的图形模型作为神经网络层。
      已经提出了许多用于图形模型参数的自动学习和分类器和图形模型的联合训练的方法。巴布等人文献[4]提出了一个MRF / CRF模型的联合训练,以及它们的主动随机场方法中的推理算法。 Domke [15]提倡使用近似推理方法(如平均场和置信传播)在图形模型中进行基于反向传播的参数优化。这个想法在[28]中被利用,其中二进制密集CRF被用于人体姿态估计。同样,Ross等人[47]和斯托扬诺夫等。 [54]显示了如何通过置信传播的反向传播可以用来优化模型参数。 Ross等人[21]特别提出一种基于学习信息的方法。这些想法中有许多可以追溯到[55],其中提出了将消息传递算法展开为可以在CNN内执行的简单操作。在一个不同的设置,Krahenb¨uhl和Koltun [30]演示自动Pa¨¨密度CRF调整时,修改的平均场算法用于推断。文献[61]提出了一种用于密集CRF的替代推理方法,而不是基于平均场的方法。
    与上述工作相比,我们的方法表明可以将稠密的CRF作为RNN来形成,从而可以形成端到端的语义图像分割的可训练系统,其结合了深度学习和图形建模的优点。
    在arXiv.org上最初发表了这项工作的技术报告之后,arXiv.org上出现了许多独立的作品[49,35],展示了类似的用于语义图像分割的联合训练方法。

8. Conclusion

      我们提出了CRF-RNN,这是对CRFs作为递归神经网络的解释。我们的公式充分整合了基于CRF的概率图形建模与新兴的深度学习技术。具体而言,所提出的CRF-RNN可以作为传统深度神经网络的一部分被插入:在深度网络的基于反向传播的训练期间,能够将其输出的误差差异传递给输入,同时学习CRF参数。我们通过将其用于语义分割任务来证明这种方法的使用:通过将完全卷积神经网络与CRF-RNN相结合,形成端到端可训练的深度网络。我们的系统在流行的Pascal VOC分段基准上实现了最新的技术。这种改善可归因于CNN和CRF在单一深度网络中的优势。
      今后,我们计划研究将网络的RNN部分的能力限制在密集CRF的平均场推断的优缺点。这里介绍的工作的一个明智的基准是使用更多的标准RNN(例如LSTM),这些RNN学会迭代地改进输入的一元电位,使它们更接近实际情况。

猜你喜欢

转载自blog.csdn.net/scut_salmon/article/details/78967092