Joint Semantic Segmentation and Depth Estimation with Deep Convolutional Networks（基于深度卷积网络的联合语义分割与深度估计）

Abstract

多尺度深度CNNs已被成功地用于将每个像素映射到标签的问题，如深度估计和语义分割。它还表明这种体系结构是可重用的，可以用于多个任务。这些网络通常通过改变输出层和训练目标来单独训练每个任务。在这项工作中，我们提出了一个新的模型，从单一的RGB图像同时完成深度估计和语义分割。我们的方法演示了为每个任务训练模型部分的可行性，然后使用单个损失函数对两个任务同时优化完整的组合模型。此外，我们将深度CNN与完全连接的CRF结合起来，捕捉语义和深度线索之间的上下文关系和交互，提高最终结果的准确性。该模型对NYUDepth V2数据集[23]进行了训练和评估，在语义分割方面优于目前的先进方法，并在深度估计任务上取得了类似的结果。

（一）介绍

深度卷积网络(CNNs)在过去的几年里引起了广泛的关注，并且通过大规模标记数据集[13]的可用性在对象分类方面取得了显著的进展。对于需要学习像素到像素映射的语义分割问题，提出了几种处理像素级标签丢失和生成的方法[17,2]。CNN用于语义分割的初始模型表明，最终层的响应图通常不能很好地本地化以实现准确的像素级分割。为了获得更精确的定位特性，最后的层与完全连接的CRF s[4]结合在一起，在分割精度上有了显著的提高。独立工作探索了使用CNNs从单一视图[8]进行深度估计。[7]的最新研究表明，常见的网络结构可以用于语义分割、深度估计和表面正态估计等问题。通过改变输出层和损失函数，可以有效地训练相同的网络结构，以完成不同基准数据集的艺术表现。与此相反，我们在多任务丢失的情况下训练相同的网络进行语义分割和深度估计，实验表明多任务学习提高了性能。

我们进一步遵循这一工作路线，并假设同时可用的深度估计可以进一步改善最终标签。为了支持这一观点，我们提出了一种新的方法和模型，用于同时对单个RGB图像进行深度估计和语义分割，其中两个任务共享底层特征表示。为了进一步克服深度CNN获取上下文的困难，并尊重边缘和像素值提供的低层次分割线索，我们将CNN与一个完全连通条件随机场(CRF)模型相结合，结合网络权值学习其参数。我们在NYUDepth V2[23]上对模型进行了训练，并在没有深度和深度估计的情况下评估了语义分割的最终质量。该方法优于目前最先进的语义分割方法[7,17,11]，在[7]的深度估计任务中取得了相似的结果。

（二）相关工作

近年来，卷积神经网络应用于计算机视觉中的许多高级问题，取得了很大的成功。最初的分类方法主要是为图像[13]分配一个标签，然后将相同的分类策略应用到独立分割过程[9]生成的窗口或区域提案。除了分类问题，这些模型在各种回归问题上也取得了很大的成功，包括姿态估计、立体、定位和实例级分割、表面法向分割和深度估计。通过合并后的多个卷积层得到的初始体系结构适用于图像分类或回归问题，其中寻找向量值输出的单标签。在完全连接层之前的早期层也被发现是有效的，因为特征图用于各种传统的计算机视觉任务[1]。对于语义分割问题，CNN方法通常在多个尺度上生成特征或标签预测，使用平均和超像素来获得最终边界。在[18]中，将CNNs应用于superpixels，直接利用前馈多层网络进行分类。[11]的替代策略使用CNN特征计算RGB-D区域提议由低水平的分割方法产生。这些方法虽然一开始很成功，但依赖于独立的分割方法的可用性以细化结果或生成目标提案。

使用CNNs学习像素到像素的映射是解决语义分割问题的第一种方法，是[17]的工作。在此基础上，作者提出将1x1卷积标签分类器应用于不同层次的特征映射，并对结果进行平均。语义分割的另一种方法是采用自动编码器风格的体系结构[19][2]，由卷积层和反卷积层组成。反卷积部分由反池和反褶积层组成，每个反池层都连接到编码端对应的池化层。卷积层与[13]、[24]体系结构保持一致，并对反卷积层进行训练。[19]中的作者将整幅图像的语义分割问题表述为单个目标方案的拼贴，同时利用反褶积部分在提案窗口内以更高的分辨率描绘出目标形状。然后，通过平均或选择最大值来组合目标建议假设，以产生最终的输出。

缺少上下文或生成更精确边界的能力是上述基于CNN的语义分割体系结构的一些典型缺点。在之前的CNN的语义分割方法中，条件随机字段(CRF)得到了有效的应用，为将局部多类预测与像素和边缘[14]捕获的上下文和局部信息相结合提供了强有力的手段。为了结合CRF s在语义分割中的优势，Chen等人[4]提出将最后一个卷积层的深度CNNs响应与全连通CRF结合起来。他们使用[10]的空穴方法使VGG网络[24]更密集，并使用双线性插值调整标签概率图的大小。然后，对[12]提出的完全连通CRF，在适当的位置使用调整大小的语义概率图。虽然在[17]中比初始结果有明显的改善，但是[4]的方法独立训练CNN部分和全连通CRF部分。改进后的一些后续工作导致了CNNs和CRFs的联合培训。Zheng等人通过将[12]的平均场近似转化为一系列可微操作来解决这个问题，这些可微操作可以被纳入CNN训练中。他们通过反向传播了解了两个标签的兼容性术语，而不考虑细胞的位置。在[16]的后续工作中，作者通过了解标签对之间的兼容性，同时考虑它们的相对空间位置，解决了这个缺点。

以前综述的语义分割方法已经应用于图像或RGB-D图像，说明了深度通道可用时的改进[11,20]。单独的工作线集中在单个图像深度估计。早期的作品利用了人造结构的约束，主要是室内环境和丰富的特性[26,22]。Saxena等[21]考虑了一般的室外场景，将深度估计制定为马尔可夫随机场(MRF)标记问题，其中深度估计使用的是在多尺度和分级MRF下计算的大量手工特征。Eigen et al[8]考虑了使用深度CNNs重新研究这些问题的尝试，使用两个网络估计深度，处理粗和细尺度深度估计。第一个网络的输入是整幅图像，输出是粗深度图，而第二个网络，取上一阶段生成的粗深度图，并在1/4的输入图像比例尺上添加一个图像贴片，生成深度图的精细细节。Liu等[15]解决了深度估计问题，即估计表示超像素中心深度的每个超像素的单个浮点数。语义和深度线索共同促进语义理解和场景布局的作品很少。Zhang等[27]在图像中分割了car实例，并提供了每个car实例的深度排序。在尝试使用深度和语义线索方面，最接近我们工作的是[14]和[25]。[14]的作者提出使用一个无偏置语义深度分类器来估计深度和语义类别，当图像和边界框缩放时，边界框上的输出保持不变。在[25]中，粗略的深度图由CNN估计，它们通过提取每个语义类别的频繁模板来添加更精细的深度细节。为每个类别寻找频繁的鉴别斑需要从每个类别中获得更多的图像。因此，随着类数量的增加，他们的方法不能很好地进行扩展。

该模型首次使用共享表示从单个RGB图像联合估计语义标签和深度。虽然之前的方法将CNNs与CRFs联合起来，并对这两个组件的参数进行了改进，但我们的方法是第一个使用更有表现力的目标函数来实现这一点的方法，该方法结合了深度和语义标签之间的交互。

（三）提出的方法

语义分割和深度估计在过去经常被单独处理。在这项工作中，我们演示了训练一个用于深度估计和语义分割的网络的可能性，在那里两个任务学习一个共享的基础特征表示。这有很多好处:首先，单个网络可以同时处理这两项任务，从而通过共享参数减少计算量和内存占用。此外，由于网络通过估计每个像素的深度来隐式学习底层物理，因此语义分割的性能得到了提高。

该方法以RGB图像为输入，使用单个网络对每个像素的深度和语义标签进行初始估计。然后将这些估计组合起来，产生最终的语义分割。使用估计的深度有助于解决类似语义类别之间的混淆，比如枕头vs沙发，书籍vs书架等等。通过优化一个联合目标函数来实现语义分割和深度估计，从而获得多尺度网络的参数。学习的权重可以单独使用，也可以联合使用。该方法是将RGB-D传感器深度通道作为网络[17]输入的一种替代方法。原始深度通道经常提供缺失或不准确的值，这些值被绘制算法[3]的输出所替代。另一方面，来自网络的估计深度没有任何缺失值。
在这里插入图片描述
该模型如图1所示。我们最初的培训目标是优化语义类别和深度估计共同定义的损失函数

在上述损失公式中，Ldepth和Lsegm联合使用多尺度CNN模型中的共享表示进行优化，得到预测标签和深度估计的每个像素响应映射。在优化的最后阶段，这些响应图之间的交互作用将合并到一个联合CRF模型中，并进一步细化包括网络参数在内的整个模型，以使目标最小化。下面两个部分将介绍网络，并详细描述了Lsem和Ldepth各自的损失函数，以及它们与网络结构的关系。在第3.4节中，我们将详细介绍CRF公式。

3.1. 模型

网络有两个主要模块;一个用于语义分割，一个用于深度估计。这两个模块使用相同的特性集来完成它们的任务。网络的共享部分，如图1蓝色所示，是一个从图像中提取特征的多尺度网络。以往的研究表明，多尺度网络能够有效提高语义分割的性能，这与传统的语义分割方法中提取多尺度[4][7]特征相似。每个尺度最后一层的卷积特征图在语义分割和深度估计分支之间共享，分别如图1中绿色和红色所示。对不同比例尺的特征图进行上采样，并将其连接起来形成图像的综合特征表示。我们选择使用[4]架构是因为它使用atrous算法产生更密集的输出，步长为8，内存占用更小。特性共享可以在测试期间节省计算资源，并提高性能，如第4部分所示。

3.2. 语义的损失函数【粗略】

在这里插入图片描述

3.3. 深度的损失函数【粗略】

在这里插入图片描述

3.4. Conditional Random Field（条件随机场）【粗略】

（四）实验

在进行性能评估之前，我们将更详细地介绍网络的参数。图1蓝色所示的网络共享部分是一个从图像中提取特征的多尺度网络。各层参数的详细信息见表1。第一个维度是输出通道的数量，其余的是该层的内核大小。网络有5个不同的分支，每个分支都以图像或较早的层作为输入，并计算更高级的特性。输入分辨率为513×513，在每个分支的末尾，语义和深度的计算特征被调整为图像大小的维数。

4.1. 训练细节

培训分多个阶段进行。第1阶段的训练目标函数仅为Lsem，其余阶段为训练优化Eq. 1。训练第一阶段，训练网络160K迭代，学习率1e-10，权重衰减0.0005，动量0.99进行语义分割。第1阶段的网络权值由[4]模型初始化，[4]模型在MS-COCO数据集上进行预训练，在Pascal-VOC数据集上进行微调。

在第二阶段，深度层(如图1红色所示)被添加到已经经过语义分割训练的网络中。使用前一阶段的权值初始化网络，对10K迭代使用语义分割和深度估计损失相结合的方法进行训练。语义损失和深度损失的规模不同。

我们观察到，通过联合训练，目标函数值下降得更快，但最终趋于平稳。两阶段的训练产生了一个稍微更好的模型。

第三阶段，将完全连接的CRF添加到网络中，共同微调网络，学习CRF权重。我们使用1e-13的学习率作为CRF权重，其余网络使用1e-16的学习率，并进行10K迭代的训练。

我们使用标准的train/test分离对NYUDepth v2数据集[23]上的模型进行训练和评估。训练集包含795张图片，测试集包含654张图片。对于训练，数据集通过裁剪和镜像来增强。对于每张图片，我们生成了4种不同的农作物，并相应地缩放深度。另外，训练集中还包括原始图像及其镜像，从原始训练集中得到4770张图像。在训练前，离线进行数据增强，随机打乱一次数据。下面的章节包含了我们关于深度估计和语义分割的方法的评估。

4.2. 深度估计

对于深度估计，我们在网络中使用长度为l = 0.14m的Nd = 50个箱子。应用softmax和Eq 3后，估计了深度值。我们在训练中修改了标定过的真实数据，使语义分割和深度估计的联合问题不那么复杂，也减少了深度读数的不确定性。注意，评估集的地面真值深度值保持不变。由于RGB-D原始深度值的质量随深度的增加而降低，且进一步的传感器读数不可靠，因此地面真实深度值在7m处被裁剪。我们还将深度值四舍五入到l的最接近的乘数，我们只使用有效的深度值进行训练。我们的方法的定量评价如表2所示。我们的方法只在比例不变损失上表现得更好，而比例不变损失对实体相对于彼此的相对顺序是敏感的。考虑到网络是在多目标函数下训练的，学习对象的相对排序就足以在语义空间中进行推理，网络只有在尺度不变损失下才能表现良好是合理的。
【公式暂略】

4.3. 语义分割估计

在NYUDepth V2数据集的40个语义标签上，使用the mean Intersection
over Union(IoU)进行语义分割，这是Jaccard在所有类中的平均得分。平均精度是所有类别中像素的平均精度，像素精度是所有类别中像素的总精度。如表3所示，我们的方法优于最近的方法。Our-Unary - Sem是网络的性能,只有训练有素的语义分割深度(训练阶段1)。Ours-Unary-Sem +深度与语义网络和深度不深(训练阶段2)。Ours-Sem-CRF的结果是语义和深度一元,但CRF只使用RGB像素值和语义一元作为输入。我们的semi -CRF+包含了所有的模块，CRF将估计的深度和RGB像素值都作为输入。总体而言，除了语义分割之外，对深度的估计可以使40个级别以上的平均欠条提高1.3%。[25]中也有类似的观察报告，但是我们的方法快了10倍，所有的东西都是端到端训练的。

请注意，RGB值的差异与像素之间深度值差异的权重无关。一个有趣的观察结果是，w(2)对于深度不连续的类对来说很大。枕头vs沙发，书架vs书籍，洗涤槽vs柜台，就是这样的例子。

（五）结论

我们展示了如何使用同一网络进行语义分割和深度估计，该网络是分阶段训练的，然后使用单个损失函数进行微调。所提出的模型和训练过程产生了可比较的深度估计和比最先进的方法更好的语义分割。此外，我们还展示了CRF与深度网络的耦合进一步提高了性能，使我们能够利用估计的深度来区分一些语义类别。结果表明，深度估计和语义分割可以共享底层特征表示，有助于提高最终性能。

深度补全（四）-论文阅读-翻译