DeepLab v1

SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected crfs[J]. arXiv preprint arXiv:1412.7062, 2014.

基于深度卷积网络和全连通CRFS的语义图像分割

ABSTRACT

深度卷积神经网络(DCNNs)最近在高级视觉任务中表现出了最新的性能,如图像分类和物体检测。这项工作将来自DCNN和概率图形模型的方法结合起来,以解决像素级分类任务(也称为“语义图像分割”)。我们证明DCNN的最终层的响应对于准确的对象分段不足够局部化。这是由于使DCNNs用于高级任务的非常不变属性所致。通过将最终DCNN层的响应与完全连接的条件随机场(CRF)相结合,我们克服了深度网络的这种劣质本地化特性。在定性上,我们的“DeepLab”系统能够定位超过以前方法的准确性水平的片段边界。定量上,我们的方法设置了PASCAL VOC-2012语义图像分割任务的新技术水平,在测试集中达到71.6%的IOU准确性。我们展示了如何高效地获得这些结果:精心设计的网络重用和来自小波社区的“孔”算法的新颖应用,可在现代GPU上每秒8帧密集计算神经网响应。

INTRODUCTION

深度卷积神经网络(DCNNs)自LeCun等人(1998)以来一直是文档识别的首选方法,但最近才成为高级视觉研究的主流。在过去的两年中,DCNNs推动了计算机视觉系统在广泛的高级问题上的性能飙升,包括图像分类(Krizhevsky等,2013;Sermanet等,2013;Simonyan&Zisserman,2014;Szegedy等,2014; Papandreou等,2014),对象检测(Girshick等,2014),细粒度分类(Zhang等, 2014),等等 。这些作品的共同主题是,以端到端方式训练的DCNNs会比依赖于精心设计的表示(如SIFT或HOG特征)的系统提供更好的结果。这种成功可以部分归因于DCNNs对局部图像变换的内置不变性,它支持其学习数据的分层抽象(Zeiler&Fergus,2014)。虽然这种不变性显然对于高水平视觉任务是令人向往的,但它可能会阻碍低水平任务,例如姿态估计(Chen和Yuille,2014;Tompson等,2014)和语义分割-其中我们需要精确的本地化,而不是空间细节的抽象。

将DCNNs应用于图像标签任务存在两个技术障碍:信号下采样和空间的“不敏感性”(不变性)。第一个问题涉及由标准DCNNs的每一层执行的重复max池合并和向下采样(“步幅”)造成的信号分辨率降低(Krizhevsky等,2013;Simonyan&Zisserman,2014 ; Szegedy等,2014)。相反,与Papandreou等人(2014)一样,我们使用最初为有效计算未降采样离散小波变换而开发的“具有孔洞的”(使用孔洞)算法。这允许在比此问题的早期解决方案(Giusti等人,2013;Sermanet等人,2013)要简单得多的方案中有效密集地计算DCNN响应。

第二个问题与从分类器获取面向对象的决策需要空间转换的不变性直接相关,从本质上限制了DCNN模型的空间精度。我们通过采用完全连接的条件随机场(CRF)来提高模型捕捉细节的能力。条件随机场已广泛用于语义分割中,将由多路分类器计算的类别分数与像素和边缘的局部相互作用(Rother等人,2004; Shotton等人,2009)或超像素(Lucchi等人,2011)信息合并起来。尽管已提出了更复杂的作品来建模分层依赖关系(He等人,2004; Ladicky等人,2009; Lempitsky等人,2011)和/或段的高阶依赖性(Delong等人,2012; Gonfaus等人,2010; Kohli等人,2009; Chen等人,2013; Wang等人,2015),但我们使用Krahenb \¨uhl&Koltun(2011)提出的完全连接的成对CRF作为其有效计算和捕捉边缘细节的能力而闻名。同时也满足长距离依赖关系。在Krahenb \¨uhl&Koltun(2011)中,该模型显示了基于提升的像素级分类器性能的显著改进,在我们的工作中,我们证明它与基于DCNN的像素级分类器结合时,可以实现最先进的结果。

我们“DeepLab”系统的三个主要优点是:(i)速度:由于“atrous”算法的特点,我们的密集DCNN的操作速度为8 fps,而完全连接的条件随机场的平均场推理需要0.5秒;(ii)准确性:我们在PASCAL语义分割挑战赛上取得了最先进的结果,在Mostajabi等人(2014)提出的第二佳方法上提高了7.2%;(iii)可扩展性::我们的系统由两个相当成熟的模块级联组成,即DCNN和CRF。

2 RELATED WORK

我们的系统直接在像素表示上工作,类似于Long等人(2014)的方法。这与现在最常见的基于DCNN的语义分割的两步法不同:这些技术通常使用自底向上的图像分割和基于DCNN的区域分类级联,这使得系统可能会受到前端分割系统的潜在误差的影响。例如,(Arbelaez等人,2014;Uijlings等人,2013)提供的边界框提议和遮罩区域被用于Girshick等人(2014)和(Hariharan等人,2014b)的输入,以引入形状信息到分类过程中。类似地,Mostajabi等人(2014)的作者依赖于超像素表示。这些工作的非DCNN前身中最著名的是(Carreira等人,2012)的二阶池化方法,该方法还为由(Carreira&Sminchisescu,2012)提出的区域提议分配标签。考虑到承诺单一分割的风险,Cogswell等人(2014)在(Yadollahpour等人,2013)的基础上构建了一个CRF-based的分割提议多样性集,也由(Carreira&Sminchisescu,2012)计算。然后根据专门用于此重新排名任务的DCNN重新排列这些分割提议。尽管该方法明确尝试处理前端分割算法的难以捉摸的性质,但仍没有明确利用基于DCNN的分数优势来进行CRF-based分割算法:DCNN仅在后期应用,而直接尝试在分割过程中使用其结果是有意义的。

趋近于我们方法的工作有几位其他研究人员考虑了利用卷积计算的DCNN特征进行密集图像标签。其中最早的是Farabet等人(2013),他们在多个图像分辨率上应用DCNN,然后使用分割树来平滑预测结果;最近,Hariharan等人(2014a)建议将DCNN中计算的中间特征映射连接起来进行像素分类,Dai等人(2014)建议通过区域提议池化中间特征映射。尽管这些工作仍然采用与DCNN分类器的分离的分割算法,但我们认为仅在后期使用分割是有优势的,避免了对过早决策的承诺。

最近,Long等人(2014)和Eigen&Fergus(2014)的无分割技术直接按滑动窗口方式将DCNN应用于整个图像,用卷积层替换DCNN的最后一个完全连接层。为了解决介绍中的空间定位问题,Long等人(2014)上采样和连接中间特征映射的分数,而Eigen&Fergus(2014)则通过将粗略结果传播到另一个DCNN中从粗到细地优化预测结果。

我们模型与其他最先进模型的主要区别在于像素级CRF和基于DCNN的“一元项”的组合。在这个方向上关注最接近的工作是Cogswell等人(2014)使用CRF作为基于DCNN的重新排名系统的提议机制,而Farabet等人(2013)将超像素作为本地成对CRF的节点,并使用图切割进行离散推理;因此,他们的结果可能会受到超像素计算误差的限制,同时忽略长距离超像素依赖关系。我们的方法将每个像素都视为CRF节点,利用长距离依赖关系,并使用CRF推理直接优化由DCNN驱动的成本函数。我们注意到均值场被广泛研究过传统的图像分割/边缘检测任务,例如,(Geiger&Girosi,1991;Geiger&Yuille,1991;Kokkinos等人,2008),但最近Krahenbühl&Koltun(2011)展示了推理对于全连接CRF非常有效,特别是在语义分割的上下文中。

在我们的手稿第一版被公开以后,我们注意到另外两个小组独立并同时追求了一个非常相似的方向,将DCNN和密集连接的CRF结合起来(Bell等,2014;Zheng等,2015)。各自模型技术上存在几点区别。Bell等人(2014)聚焦于材料分类问题,而Zheng等人(2015)展开CRF均值场推理步骤,将整个系统转换为端对端可训练的前馈网络。

我们通过改进方法和结果更新了我们提出的“DeepLab”系统,最新工作发表在Chen等人(2016)中。我们将感兴

3 CONVOLUTIONAL NEURAL NETWORKS FOR DENSE IMAGE LABELING

在这里,我们描述了如何重新调整和微调公开可用的Imagenet预训练16层分类网络(Simonyan&Zisserman,2014)(VGG-16),将其转变为我们密集语义图像分割系统的高效而有效的密集特征提取器。

3.1 EFFICIENT DENSE SLIDING WINDOW FEATURE EXTRACTION WITH THE HOLE ALGORITHM

密集空间评分的计算对于我们的密集卷积神经网络特征提取器的成功至关重要。为了实现这一点,我们将VGG-16的全连接层转换成卷积层,并以卷积方式在其原始分辨率上运行网络。但是,这还不够,因为它产生的检测得分非常稀疏(步长为32像素)。为了在目标步幅为8像素时更密集地计算分数,我们开发了一种方法,这种方法是在Giusti等人(2013)和Sermanet等人(2013)之前使用过的方法的变体。我们跳过Simonyan&Zisserman(2014)网络中最后两个最大池化层之后的下采样操作,并修改其后续卷积层中的卷积滤波器,通过引入零来增加它们的长度(在最后三个卷积层中为2倍,在第一个全连接层中为4倍)。我们可以通过保持滤波器不变并分别使用输入步幅为2或4像素的稀疏特征图来更有效地实现这个方法。如图1所示,这种方法被称为‘孔洞算法’(‘atrous算法’),并且以前曾用于高效计算不降采样小波变换(Mallat,1999)。我们在Caffe框架(Jia等人,2014)中实现了这一方法,通过向im2col函数添加了一个选项,可以对下面的特征图进行稀疏采样。这种方法普遍适用,允许我们在目标下采样率下高效地计算密集的卷积神经网络特征映射,而不引入任何近似。

我们以Long等人(2014)的方法为基础,直接对Imagenet预训练VGG-16网络模型进行微调来适应图像分类任务。我们将VGG-16最后一层中的1000路Imagenet分类器替换为21路分类器。我们的损失函数是CNN输出图中每个空间位置的交叉熵项之和(相对于原始图像下采样8倍)。整个损失函数中,各个位置和标签权重相等。我们的目标是标注过的正确标签(相对于原始图像下采样8倍)。我们使用Krizhevsky等人(2013)标准的SGD过程优化所有网络层权重的目标函数。

测试时,我们需要在原始图像分辨率上生成类别得分图。如图2所示,并在第4.1节进一步说明,类别得分图(对应于对数概率)非常平滑,这使得我们可以使用简单的双线性插值将其分辨率增加8倍,而计算成本可以忽略不计。请注意,Long等人(2014)的方法没有使用孔洞算法,并且在CNN输出处产生非常粗糙的得分(下采样32倍)。这迫使他们使用学习到的上采样层,显著增加了系统的复杂性和训练时间:我们在PASCAL VOC 2012数据集上微调网络大约需要10个小时,而他们报告的训练时间为几天(都在现代GPU上测量)。


图1:展示了当核大小为3,输入步幅为2,输出步幅为1时,在1-D情况下使用空洞卷积的算法示意图。

3.2 控制卷积网络中感受野大小和加速密集计算

为了重新使用我们的网络进行密集得分计算,另一个关键要素是明确控制网络的感受野大小。大多数最近的基于DCNN的图像识别方法都依赖于在Imagenet大规模分类任务上预训练的网络。这些网络通常具有较大的感受野大小:以我们考虑的VGG-16网络为例,它的感受野大小为224×224(使用零填充),如果以卷积方式应用,则为404×404像素。在将网络转换为完全卷积网络之后,第一个全连接层具有4,096个尺寸为7×7的大型滤波器,并成为我们密集得分图计算中的计算瓶颈。

我们通过对第一个全连接层进行空间子采样(通过简单抽样)到4×4(或3×3)空间尺寸来解决了这个实际问题。这将网络的感受野缩小到128×128(使用零填充)或308×308(在卷积模式下),并将第一个全连接层的计算时间减少了2-3倍。使用我们基于Caffe的实现和Titan GPU,得到的由VGG派生的网络非常高效:给定一个306x306的输入图像,在测试期间以大约8帧/秒的速度在网络顶部产生39×39的密集原始特征得分。训练期间的速度为3帧/秒。我们还成功尝试将全连接层的通道数从4,096降至1,024,显著减少了计算时间和内存占用量,而不会损失性能,详见第5节。使用较小的网络,如Krizhevsky等人(2013),甚至可以在轻量级GPU上实现每秒钟一次视频率的测试时间密集特征计算。

4 详细边界恢复:全连通条件随机场和多尺度预测

4.1 深度卷积网络与定位挑战

如图2所示,DCNN得分图可可靠地预测图像中物体的存在和大致位置,但不太适合准确定位其轮廓。使用卷积网络在分类精度和定位精度之间存在自然的权衡:深度模型具有多个最大池化层,在分类任务中证明最成功,然而它们增加的不变性和大型感受野使从其顶部输出水平的分数推断位置成为更具挑战性的问题。

近期的工作追求了两个方向来解决这一定位挑战。第一种方法是利用卷积网络中多个层中的信息,以更好地估计物体的边界(Long等人,2014;Eigen&Fergus,2014)。第二种方法是采用超像素表示,实质上将定位任务委托给低级别分段方法。这是Mostajabi等人(2014)非常成功的近期方法所采用的路线。

在第4.2节中,我们追求了一种基于将DCNN的识别能力与全连接CRF的细粒度定位精度相结合的新颖替代方向,展示了这种方法在解决定位挑战方面的显着成功,产生了精确的语义分割结果,并以细节水平恢复对象边界,这是现有方法无法达到的。

4.2 用于精确定位的全连通条件随机场

在这里插入图片描述
图2:飞机类别的分数图(softmax函数之前的输入)和置信度图(softmax函数输出)。我们展示了每次均值场迭代后的分数(第一行)和置信度(第二行)图。最后一个DCNN层的输出被用作均值场推理的输入。最好使用彩色查看。

图3:模型说明。从具有全卷积层的深度卷积神经网络获得的粗糙得分图通过双线性插值进行上采样。完全连接的CRF被应用于细化分割结果。最好以彩色显示。

传统上,有条件随机场(CRF)已被用于平滑噪声分割地图(Rother等人,2004;Kohli等人,2009)。通常这些模型包含能耦合相邻节点的能量项,倾向于在空间上临近的像素赋予相同的标签。 qualitatively而言,这些短程CRF的主要功能是清除基于本地手工设计特征构建的弱分类器的虚假预测。

与这些较弱的分类器相比,在本文中使用的现代DCNN架构产生的得分映射和语义标签预测是 qualitatively不同的。如图2所示,得分图通常非常平滑,并产生均质的分类结果。在这种情况下,使用短程CRF可能会有害,因为我们的目标应该是恢复详细的局部结构而不是进一步平滑它。使用对比度敏感的势能(Rother等人,2004)结合本地范围的CRF可以潜在地改善定位,但仍然会忽略细小的结构,并且通常需要解决昂贵的离散优化问题。

为了克服这些短程CRF的限制,我们将Krahenb¨uhl&Koltun(2011)的全连接CRF模型整合到系统中。该模型采用能量函数

其中x是像素的标签分配。我们使用作为单元潜力 θ i ( x i ) = − l o g P ( x i ) θ_i(x_i) = - log P(x_i) θi(xi)=logP(xi),其中P(xi)是由DCNN计算得出的像素i处的标签分配概率。成对潜在的形式为 θ i j ( x i , x j ) = µ ( x i , x j ) ∑ m = 1 K w m ⋅ k m ( f i , f j ) θ_{ij} (x_i,x_j) = µ(x_i,x_j) \sum ^K _{m = 1} w_m·k^m(f_i,f_j) θij(xixj)=µ(xixj)m=1Kwmkm(fifj),其中 µ ( x i , x j ) = 1 µ(x_i,x_j) = 1 µ(xixj)=1如果 x i ≠ x j x_i ≠ x_j xi=xj,并且否则(即Potts模型)为零。每对图像中的像素i和j都有一个成对项,无论它们距离多远,即模型的因子图是完全连接的。每个 k m k^m km是依赖于提取出的像素i和j的特征(表示为f),并且由参数 w m w_m wm加权的高斯核。我们采用双边位置和颜色条款,特别是核心是:

其中第一个核取决于像素位置(表示为p)和像素颜色强度(表示为I),而第二个核只取决于像素位置。超参数σα、σβ和σγ控制高斯核的“尺度”。

关键是,这个模型易于进行有效的近似概率推理(Krahenb¨uhl&Koltun,2011)。在完全可分解的平均场近似 b ( x ) = ∏ i b i ( x i ) b(x)=\prod_ib_i(xi) b(x)=ibi(xi)
下,传递消息更新可以用特征空间中的高斯核进行卷积表达。高维滤波算法(Adams等人,2010)显着加快了这种计算速度,导致算法在实践中非常快速,对于使用(Krahenb¨uhl&Koltun,2011)的公开实现平均不到0.5秒的Pascal VOC图像。

4.3 MULTI-SCALE PREDICTION

鉴于(Hariharan等人,2014a;Long等人,2014)最近取得的有希望的结果,我们还探究了多尺度预测方法,以提高边界定位准确性。具体来说,我们将两层MLP(第一层:128个3x3卷积滤波器,第二层:128个1x1卷积滤波器)附加到输入图像和每个前四个最大池化层的输出上,其特征映射与主网络的最后一层特征映射连接起来。因此,馈入softmax层的聚合特征映射增强了5 * 128 = 640个通道。我们只调整新添加的权重,将其他网络参数保持为第3节中该方法学习的值。正如实验部分所讨论的那样,引入这些额外的来自细分较低层的直接连接可以改善定位性能,但效果不如全连接CRF获得的效果显著。

表1:(a)我们所提出的模型在PASCAL VOC 2012“val”集上的性能(使用扩充的“train”集进行训练)。最佳性能是通过利用多尺度特征和大的视野来实现的。(b)我们所提出的模型(在扩充的“trainval”集上进行训练)在PASCAL VOC 2012“test”集上的性能,与其他最先进的方法相比。

5 EXPERIMENTAL EVALUATION

数据集我们在PASCAL VOC 2012分割基准测试(Everingham等人,2014)上测试我们的DeepLab模型,该数据集由20个前景对象类和一个背景类组成。原始数据集分别包含1,464、1,449和1,456张图像用于训练、验证和测试。通过Hariharan等人(2011)提供的额外注释对数据集进行了扩充,从而得到了10,582个训练图像。性能以跨越21个类别的像素交集联合(IOU)平均值为度量标准。

训练我们采用最简单的分段训练形式,将DCNN和CRF训练阶段解耦,并假设DCNN提供的一元项在CRF训练期间是固定的。对于DCNN训练,我们采用预先在ImageNet上进行过预训练的VGG-16网络。我们通过随机梯度下降在交叉熵损失函数上对VOC 21-way pixel分类任务进行微调,如第3.1节所述。我们使用20个图像的mini-batch和0.001的初始学习率(最后分类器层使用0.01),每2000次迭代将学习率乘以0.1。我们使用0.9的动量和0.0005的权重衰减。在DCNN微调后,我们沿着Krahenb¨uhl&Koltun(2011)的方法对方程(2)中的全连接CRF模型的参数进行交叉验证。我们使用w2 = 3和σγ = 3的默认值,并在验证集的一个小子集上(使用100个图像)交叉验证w1、σα和σβ的最佳值。我们采用由粗到细的搜索方案,具体而言,参数的初始搜索范围为w1 ∈ [5,10]、σα ∈ [50:10:100]和σβ ∈ [3:1:10](MATLAB表示),然后我们围绕第一轮的最佳值来细化搜索步长。我们对所有报告的实验设置均保持平均场迭代次数为10。

验证集上的评估我们在PASCAL“val”数据集上进行大部分评估,训练我们的模型在经过增强的PASCAL“train”数据集上。如表格1(a)所示,将全连接CRF纳入我们的模型(称为DeepLab-CRF)可以显著提高性能,相比于DeepLab约提高了4%。我们注意到Krahenb¨uhl&Koltun¨(2011)的工作将TextonBoost(Shotton等人,2009)的27.6%结果提高到了29.1%,这使得我们报道的改进(从59.8%到63.7%)更加令人印象深刻。

就定性结果而言,我们在图7中提供了DeepLab和DeepLab-CRF之间的视觉比较。采用全连接CRF显著改进了结果,使模型能够准确地捕捉复杂的对象边界。

表2:感受野的影响。我们展示了第一个全连接层的核大小和atrous算法中采用的输入步幅值的函数,以及在PASCAL VOC 2012“val”集上的性能(经过CRF后)和训练速度。

多尺度特征 我们还利用了与Hariharan等人(2014a)和Long等人(2014)类似的中间层次的特征。如表1(a)所示,将多尺度特征添加到我们的DeepLab模型中(表示为DeepLab-MSc),可改善约1.5%的性能,并进一步合并全连接CRF(表示为DeepLab-MSc-CRF),则可改善约4%的性能。
DeepLab和DeepLab-MSc之间的定性比较显示在图4中。利用多尺度特征可以略微细化物体边界。

视野控制我们采用的“atrous算法”允许我们通过调整输入步幅来任意控制模型的视野,如图1所示。在表2中,我们尝试了在第一个全连接层中使用几种核大小和输入步幅的实验。DeepLab-CRF-7x7方法是从VGG-16 net直接修改而来,其中核大小为7×7,输入步幅为4。该模型在“val”集上的性能为67.64%,但相对比较缓慢(训练期间每秒1.44张图片)。将核大小减小到4×4后,我们已经将模型速度提高到每秒2.9张图片。我们尝试了两个具有不同视野大小的网络变体,即DeepLab-CRF和DeepLab-CRF-4x4;后者具有大的FOV(即大的输入步幅)并获得更好的性能。最后,我们使用3×3的核大小和输入步幅= 12,并进一步将最后两层的滤波器大小从4096更改为1024。有趣的是,由此产生的模型DeepLab-CRF-LargeFOV与昂贵的DeepLabCRF-7x7具有相同的性能。同时,它的运行速度是3.36倍快,参数数量显着减少(20.5M而不是134.3M)。

表1总结了几种模型变体的性能,显示了利用多尺度特征和大FOV的好处。


图4:融合多尺度特征可以提高边界分割效果。第一行和第二行分别展示了DeepLab和DeepLab-MSc的结果。最好用彩色视图查看。

沿着物体边界计算平均像素IOU为了量化所提出的模型在物体边界附近的准确性,我们使用类似于Kohli等人(2009); Krahenb¨uhl&Koltun(2011)的实验来评估分割准确性。具体而言,我们使用val集中注释的“void”标签,该标签通常出现在物体边界周围。我们计算那些位于’void’标签的窄带(称为trimap)内的像素的平均IOU。如图5所示,利用中间层中的多尺度特征并通过全连接CRF对分割结果进行细化显着改善物体边界附近的结果。

与最先进技术的比较在图6中,我们定性地将我们提出的模型DeepLabCRF与两个最先进的模型:FCN-8s(Long等,2014年)和TTI-Zoomout-16进行比较(Mostajabi等,2014年)在“val”集(结果从其论文中提取)。我们的模型能够捕捉复杂的物体边界。

图5:(a)一些trimap示例(左上方:图像。右上方:地面真理。左下方:2个像素的trimap 。右下角:10个像素的trimap )。所提出的方法在物体边界周围的带内分割结果的质量。(b)逐像素准确度。(c)像素平均IOU。

图6:在val集上与最先进模型的比较。第一行:图像。第二行:地面真实值。第三行:其他近期模型(左:FCN-8s,右:TTI-Zoomout-16)。第四行:我们的DeepLab-CRF。最好使用彩色查看。

可复现性 我们通过扩展优秀的Caffe框架(Jia等人,2014)来实现所提出的方法。我们分享了源代码、配置文件和训练模型,可在伴随网站https://bitbucket.org/deeplab/deeplab-public上重现本文的结果。

测试集结果 在验证集上设置了模型选择后,我们在PASCAL VOC 2012官方的“测试”集上评估我们的模型变体。如表3所示,我们的DeepLab-CRF和DeepLabMSc-CRF模型分别达到了66.4%和67.1%的平均IOU1性能。我们的模型优于所有其他最先进的模型(具体而言,TTI-Zoomout-16(Mostajabi等人,2014)、FCN-8s(Long等人,2014)和MSRA-CFM(Dai等人,2014))。当我们增加模型的FOV时,DeepLab-CRF-LargeFOV的性能达到了70.3%,与DeepLab-CRF7x7相同,但其训练速度更快。此外,我们的最佳模型DeepLab-MSc-CRF-LargeFOV通过同时使用多尺度特征和大FOV,达到了71.6%的最佳性能。

图7:在VOC 2012验证集上的可视化结果。对于每一行,我们展示了输入图像、DCNN(DeepLab)提供的分割结果以及完全连接CRF(DeepLab-CRF)的精炼分割结果。我们在最后三行展示了失败的模式。最好在彩色视图下查看。

表3:使用trainval集进行训练,在PASCAL VOC 2012测试集上的标签IOU(%)。

6 DISCUSSION

本研究将深度卷积神经网络和全连接条件随机场的思想相结合,提出了一种能够产生语义准确预测和详细分割图的新方法,同时具有计算效率。我们的实验结果表明,所提出的方法在具有挑战性的PASCAL VOC 2012语义图像分割任务方面显著提高了最先进技术水平。

我们计划进一步完善模型的多个方面,如全面整合其两个主要组成部分(CNN和CRF),并像Krahenbühl&Koltun(2013); Chen等(2014); Zheng等(2015)一样以端到端方式训练整个系统。我们还计划尝试更多的数据集,并将我们的方法应用于其他数据源,如深度图或视频。最近,我们采用弱监督注释(如边界框或图像级标签)进行模型训练(Papandreou等,2015)。

从更高的层次上看,我们的工作处于卷积神经网络和概率图模型的交叉点上。我们计划进一步研究这两个强大方法类之间的相互作用,并探索它们在解决具有挑战性的计算机视觉任务方面的协同潜力。

致谢

本研究得到了ARO 62250-CS,NIH Grant 5R01EY022247-03,EU项目RECONFIG FP7-ICT-600825和EU项目MOBOT FP7-ICT-2011-600796的部分支持。我们还感谢NVIDIA Corporation捐赠用于此研究的GPU。

我们要感谢匿名评审员的详细评论和建设性反馈。

论文修订

为方便读者,我们在此列出主要的论文修订清单。

v1提交给ICLR 2015。介绍了DeepLab-CRF模型,该模型在PASCAL VOC 2012测试集上获得了66.4%的性能。

v2对ICLR 2015进行了反驳。添加了DeepLab-MSc-CRF模型,该模型将中间层的多尺度特征结合在一起。DeepLab-MSc-CRF在PASCAL VOC 2012测试集上获得了67.1%的性能。

v3适用于ICLR 2015的相机准备就绪。尝试了大的视野范围。在PASCAL VOC 2012测试集上,DeepLab-CRF-LargeFOV的性能达到了70.3%。当利用多尺度特
v4 引用了我们更新的“DeepLab”系统(Chen等人,2016),该系统的结果有了很大的改进。

REFERENCES

Adams, A., Baek, J., and Davis, M. A. Fast high-dimensional filtering using the permutohedral
lattice. In Computer Graphics Forum, 2010.
Arbelaez, P., Pont-Tuset, J., Barron, J. T., Marques, F., and Malik, J. Multiscale combinatorial ´
grouping. In CVPR, 2014.
Bell, S., Upchurch, P., Snavely, N., and Bala, K. Material recognition in the wild with the materials
in context database. arXiv:1412.0623, 2014.
Carreira, J. and Sminchisescu, C. Cpmc: Automatic object segmentation using constrained parametric min-cuts. PAMI, 2012.
Carreira, J., Caseiro, R., Batista, J., and Sminchisescu, C. Semantic segmentation with second-order
pooling. In ECCV, 2012.
Chen, L.-C., Papandreou, G., and Yuille, A. Learning a dictionary of shape epitomes with applications to image labeling. In ICCV, 2013.
Chen, L.-C., Schwing, A., Yuille, A., and Urtasun, R. Learning deep structured models.
arXiv:1407.2538, 2014.
Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., and Yuille, A. L. Deeplab: Semantic
image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.
arXiv:1606.00915, 2016.
Chen, X. and Yuille, A. L. Articulated pose estimation by a graphical model with image dependent
pairwise relations. In NIPS, 2014.
Cogswell, M., Lin, X., Purushwalkam, S., and Batra, D. Combining the best of graphical models
and convnets for semantic segmentation. arXiv:1412.4313, 2014.
Dai, J., He, K., and Sun, J. Convolutional feature masking for joint object and stuff segmentation.
arXiv:1412.1283, 2014.
Delong, A., Osokin, A., Isack, H. N., and Boykov, Y. Fast approximate energy minimization with
label costs. IJCV, 2012.
Eigen, D. and Fergus, R. Predicting depth, surface normals and semantic labels with a common
multi-scale convolutional architecture. arXiv:1411.4734, 2014.
Everingham, M., Eslami, S. M. A., Gool, L. V., Williams, C. K. I., Winn, J., and Zisserma, A. The
pascal visual object classes challenge a retrospective. IJCV, 2014.
Farabet, C., Couprie, C., Najman, L., and LeCun, Y. Learning hierarchical features for scene labeling. PAMI, 2013.
Geiger, D. and Girosi, F. Parallel and deterministic algorithms from mrfs: Surface reconstruction.
PAMI, 13(5):401–412, 1991.
Geiger, D. and Yuille, A. A common framework for image segmentation. IJCV, 6(3):227–243,
1991.
Girshick, R., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object
detection and semantic segmentation. In CVPR, 2014.
Giusti, A., Ciresan, D., Masci, J., Gambardella, L., and Schmidhuber, J. Fast image scanning with
deep max-pooling convolutional neural networks. In ICIP, 2013.
Gonfaus, J. M., Boix, X., Van de Weijer, J., Bagdanov, A. D., Serrat, J., and Gonzalez, J. Harmony
potentials for joint classification and segmentation. In CVPR, 2010.
Hariharan, B., Arbelaez, P., Bourdev, L., Maji, S., and Malik, J. Semantic contours from inverse ´
detectors. In ICCV, 2011.
Hariharan, B., Arbelaez, P., Girshick, R., and Malik, J. Hypercolumns for object segmentation and ´
fine-grained localization. arXiv:1411.5752, 2014a.
Hariharan, B., Arbelaez, P., Girshick, R., and Malik, J. Simultaneous detection and segmentation. ´
In ECCV, 2014b.
He, X., Zemel, R. S., and Carreira-Perpindn, M. Multiscale conditional random fields for image
labeling. In CVPR, 2004.
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell,
T. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014.
Kohli, P., Ladicky, L., and Torr, P. H. Robust higher order potentials for enforcing label consistency.
IJCV, 2009.
Kokkinos, I., Deriche, R., Faugeras, O., and Maragos, P. Computational analysis and learning for a
biologically motivated model of boundary detection. Neurocomputing, 71(10):1798–1812, 2008.
Krahenb ¨ uhl, P. and Koltun, V. Efficient inference in fully connected crfs with gaussian edge poten- ¨
tials. In NIPS, 2011.
Krahenb ¨ uhl, P. and Koltun, V. Parameter learning and convergent inference for dense random fields. ¨
In ICML, 2013.
Krizhevsky, A., Sutskever, I., and Hinton, G. E. Imagenet classification with deep convolutional
neural networks. In NIPS, 2013.
Ladicky, L., Russell, C., Kohli, P., and Torr, P. H. Associative hierarchical crfs for object class image
segmentation. In ICCV, 2009.
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document
recognition. In Proc. IEEE, 1998.
Lempitsky, V., Vedaldi, A., and Zisserman, A. Pylon model for semantic segmentation. In NIPS,
2011.
Long, J., Shelhamer, E., and Darrell, T. Fully convolutional networks for semantic segmentation.
arXiv:1411.4038, 2014.
Lucchi, A., Li, Y., Boix, X., Smith, K., and Fua, P. Are spatial and global constraints really necessary
for segmentation? In ICCV, 2011.
Mallat, S. A Wavelet Tour of Signal Processing. Acad. Press, 2 edition, 1999.
Mostajabi, M., Yadollahpour, P., and Shakhnarovich, G. Feedforward semantic segmentation with
zoom-out features. arXiv:1412.0774, 2014.
Papandreou, G., Kokkinos, I., and Savalle, P.-A. Untangling local and global deformations in deep
convolutional networks for image classification and sliding window detection. arXiv:1412.0296,
2014.
Papandreou, G., Chen, L.-C., Murphy, K., and Yuille, A. L. Weakly- and semi-supervised learning
of a DCNN for semantic image segmentation. arXiv:1502.02734, 2015.
Rother, C., Kolmogorov, V., and Blake, A. Grabcut: Interactive foreground extraction using iterated
graph cuts. In SIGGRAPH, 2004.
Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., and LeCun, Y. Overfeat: Integrated
recognition, localization and detection using convolutional networks. arXiv:1312.6229, 2013.
Shotton, J., Winn, J., Rother, C., and Criminisi, A. Textonboost for image understanding: Multiclass object recognition and segmentation by jointly modeling texture, layout, and context. IJCV,
2009.
Simonyan, K. and Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and
Rabinovich, A. Going deeper with convolutions. arXiv:1409.4842, 2014.
Tompson, J., Jain, A., LeCun, Y., and Bregler, C. Joint Training of a Convolutional Network and a
Graphical Model for Human Pose Estimation. In NIPS, 2014.
Uijlings, J., van de Sande, K., Gevers, T., and Smeulders, A. Selective search for object recognition.
IJCV, 2013.
Wang, P., Shen, X., Lin, Z., Cohen, S., Price, B., and Yuille, A. Towards unified depth and semantic
prediction from a single image. In CVPR, 2015.
Yadollahpour, P., Batra, D., and Shakhnarovich, G. Discriminative re-ranking of diverse segmentations. In CVPR, 2013.
Zeiler, M. D. and Fergus, R. Visualizing and understanding convolutional networks. In ECCV, 2014.
Zhang, N., Donahue, J., Girshick, R., and Darrell, T. Part-based r-cnns for fine-grained category
detection. In ECCV, 2014.
Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., Huang, C., and Torr, P.
Conditional random fields as recurrent neural networks. arXiv:1502.03240, 2015

猜你喜欢

转载自blog.csdn.net/wagnbo/article/details/130629495
今日推荐