在计算机视觉中，超像素已被广泛用作减少后续处理图像基元数量的有效方法。但是只有少数尝试将它们整合到深度神经网络中。一个主要原因是标准卷积操作是在规则网格上定义的，并且在应用于超像素时变得低效。受传统超像素算法普遍采用的初始化策略的启发，我们提出了一种新方法，该方法采用简单的全卷积网络来预测常规图像网格上的超像素。基准数据集的实验结果表明，我们的方法在以约 50fps(帧每秒) 的速度运行时实现了最先进的超像素分割性能。基于预测的超像素，我们进一步开发了一种用于深度网络的下采样/上采样方案，目标是为密集预测任务生成高分辨率输出。具体来说，我们修改了一种流行的立体匹配网络架构，以同时预测超像素和视差。我们表明，可以在公共数据集上获得改进的视差估计精度。

1、introduction

近年来，深度神经网络（DNN）在广泛的计算机视觉应用中取得了巨大成功。然而，新颖的神经架构设计和训练方案的进步通常会在内存和时间方面对计算资源提出更大的需求。以立体匹配任务为例。经验表明，与传统的 2D 卷积相比，4D 体积（高度×宽度×视差×特征通道）[17] 上的 3D 卷积可以更好地捕获上下文信息，并学习每个视差级别的表示，从而获得更好的视差估计结果。但由于额外的特征维度，3D 卷积通常在空间分辨率上运行，考虑到时间和内存问题，空间分辨率低于原始输入图像大小。例如，KITTI 2015 基准中的排名第一的方法： CSPN [8] 在输入大小的 1/4 处进行 3D 卷积，并使用双线性插值对预测的视差体积进行上采样以进行最终视差回归。为了处理高分辨率图像（例如，2000 × 3000），HSM [42]（Middlebury-v3 基准测试中的排名第一的方法）使用多尺度方法来计算输入大小的 1/8、1/16 和1/32的视差体积。再次应用双线性上采样以生成全分辨率的视差图。在这两种情况下，由于上采样操作，最终视差图中通常不能很好地保留对象的边界和精细细节。

在计算机视觉中，超像素通过将感知上相似的像素组合在一起来提供图像数据的紧凑表示。在后续处理中，作为一种有效减少图像基元数量的方法，超像素已广泛应用于视觉问题，如显着性检测[41]、目标检测[32]、跟踪[37]和语义分割[12]。然而，超像素尚未在 DNN 中广泛用于降维。一个主要原因是，卷积神经网络 (CNN) 中的标准卷积操作是在常规图像网格上定义的。虽然已经进行了一些尝试来修改深度架构以包含超像素 [14、11、20、34]，但在不规则的超像素网格上执行卷积仍然具有挑战性。

为了克服这个困难，我们提出了一种在规则网格上学习超像素的深度学习方法。我们的主要见解是，可以将每个超级像素与常规图像网格单元相关联，这是传统超级像素算法[22、36、10、1、23、25、2]常用的一种策略，作为初始化步骤（见图2）。因此，我们将超像素分割作为一项任务，旨在找到图像像素和规则网格单元之间的关联分数，并使用完全卷积网络（FCN）直接预测这些分数。请注意，最近的工作[16]也提出了一种端到端可训练网络用于此任务，但该方法使用深度网络来提取像素特征，然后将其馈送到soft K-means聚类模块以生成超像素。

Figure 1：阐明我们用于深度网络的基于超像素的下采样/上采样方案。在此图中，我们选择PSMNet [7] 进行立体声匹配作为我们的任务网络。首先使用我们的超像素分割网络预测的超像素关联矩阵Q对高分辨率输入图像进行下采样。为了生成高分辨率视差图，我们使用相同的矩阵Q对PSMNet预测的低分辨率视差量进行上采样，以进行最终视差回归。

我们选择标准FCN架构的主要动机是它的简单性以及在常规网格上生成输出的能力。利用预测的超像素，我们进一步提出了DNN中下采样/上采样的一般框架。如图1所示，我们用基于超像素的下采样/上采样方案取代任务网络（图中的PSMNet）中的下采样（例如，步长为2卷积）和上采样（例如，双线性上采样）的常规操作，以有效地保留对象的边界和精细细节。此外，由此产生的网络是端到端可训练的。我们的联合学习框架的一个优点是，超级像素分割现在直接受到下游任务的影响，这两个任务自然可以相互受益。在本文中，我们以立体匹配为例，展示了如何将流行的网络PSMNet[7]应用到我们的框架中，许多最新的方法，如CSPN[8]和HSM[42]，都是基于它构建的。

我们已经进行了大量实验来评估所提出的方法。对于超像素分割，在BSDS500[3]和NYUv2[28]等公共基准上的实验结果表明，我们的方法在涉及的各种指标上可与最先进的相竞争或优于后者，而且速度也很快（运行速度约为50fps）。对于视差估计，我们的方法在SceneFlow[27]以及高分辨率数据集HR-VS[42]和Middlebury-v3[30]上优于原始PSMNet，验证了将超级像素纳入下游视觉任务的好处。

综上所述，本文的主要贡献有：1。我们提出了一种用于超像素分割的简单全卷积网络，它在基准数据集上实现了最先进的性能。2.我们为DNN引入了一个通用的基于超像素的下采样/上采样框架。我们通过将超像素合并到一个流行的立体匹配网络中，展示了视差估计的更高精度。据我们所知，我们是第一个开发基于学习的方法，同时执行超像素分割和密集预测。

2. Related Work

Superpixel segmentation.

关于超像素分割的研究很长，现在是许多视觉任务的标准工具。为了对现有方法进行彻底的调查，我们请读者参考最近的论文 [444]。在这里，我们重点介绍在初始化步骤中使用常规网格的方法。

Turbopixels [22] 根据所需的超像素数量将初始种子放置在规则间隔处，并将其生长到区域中，直到形成超像素为止。[36] 通过使用嵌入结构和紧凑性约束的测地线距离对像素进行聚类来增长超像素。种子 [10] 初始化网格上的超像素，并通过在相邻超像素之间交换像素来不断细化边界。

SLIC算法 [1] 基于5维位置和CIELAB颜色特征，采用K-mans聚类将附近像素分组为超像素。SLIC的变体包括将每个像素映射到10维特征空间并执行加权K-means的LSC [23]，将图像映射到2维流形以产生对内容敏感的超像素的流形SLIC [25]，和用非迭代区域增长方案代替迭代K-means聚类的SNIC [2]。

尽管上述方法依赖于手工制作的特征，但最近的工作 [35] 提出使用DNN从大数据中学习像素亲和力。在 [16] 中，作者建议学习像素特征，然后将其馈送到可微K-means聚类模块以进行超像素分割。由此产生的方法SSN，是用于超像素分割的第一个端到端可训练网络。与这些方法不同的是，我们训练了一个深度神经网络来直接预测像素与超像素的关联图。

The use of superpixels in deep neural networks.

几种方法提出将超像素集成到深度学习管道中。这些作品通常使用预先计算的超像素来处理学习特征，以便可以更好地保留重要的图像属性（例如，边界）。例如，[14] 使用超像素将 2D 图像模式转换为 1D 顺序表示，这允许 DNN 有效地探索用于显着性检测的远程上下文。 [11] 引入了一个“双边启动”模块，可以插入现有的 CNN 并跨超像素执行双边过滤，[20, 34] 使用超像素来池化特征，来用于语义分割。相反，我们使用超像素作为下采样/上采样的有效方法。此外，这些作品都没有尝试与下游任务联合学习超像素。

此外，我们的方法也类似于可变形卷积网络（DCN）[9, 47]，因为两者都可以实现自适应各自的领域。然而，DCN 主要是为了更好地处理几何变换和捕获上下文信息以进行特征提取。因此，与超像素不同，可变形卷积层并不限制每个像素都必须对输出特征做出贡献（因此由输出特征表示）。

Stereo matching.

基于超像素或分割的立体匹配方法首次在 [4] 中引入，此后已被广泛使用 [15,5，19,38，6,13]。这些方法首先将图像分割成区域，并将参数模型 (通常是平面) 拟合到每个区域。在 [39,40] 中，Yamaguchi等人提出了一种优化框架，将参考图像联合分割成超像素并估计视差图。[26] 训练CNN来预测初始像素差异，这些差异使用倾斜平面MRF模型进行改进。[21] 开发了一种有效的算法，该算法仅针对像素的随机子集计算光一致性。我们的工作与这些基于优化的方法根本不同。我们没有使用参数模型拟合到超像素，而是使用超像素为DNN开发了一种新的下采样/上采样方案。

在过去的几年中，深度网络 [45、31、29、44] 利用大规模注释数据产生了令人印象深刻的立体声匹配结果。采用3D卷积的最新方法 [17,7，8] 在公共基准上实现了最先进的性能。但是，由于内存限制，这些方法通常以较低的分辨率计算视差量。[18] 对输出大小的差异进行双线性上采样，并使用边缘保持细化网络对其进行细化。最近的工作 [42] 也探索了高效的高分辨率处理，但其重点是生成从粗到细的结果，以满足自动驾驶应用中随时按需深度传感的需求。

3. Superpixel Segmentation Method

在本节中，我们将介绍基于CNN的超像素分割方法。我们首先在第3.1节中提出直接预测规则网格上的像素-超像素关联的想法，然后在第3.2节中描述我们的网络设计和损失函数。在第3.3节中，我们进一步绘制了我们的超像素学习机制与最近的卷积空间传播 (CSP) 网络 [8] 之间的联系，以学习像素亲和力。最后，在第3.4节中，我们在公共基准数据集上系统地评估了我们的方法。

Figure 2：Np 的插图。对于绿色框中的每个像素 p，我们考虑红色框中的 9 个网格单元进行分配。

3.1. Learning Superpixels on a Regular Grid

在文献中，采用 [22, 36, 10, 1, 23, 25, 2, 16] 进行超像素分割的常用策略是首先使用大小为 h×w的规则网格对 H×W 图像进行分区,并将每个网格单元视为初始超像素（即“种子”）。然后，通过找到一个映射来获得最终的超像素分割，该映射将每个像素 p = (u, v) 分配给种子 s = (i, j) 之一。在数学上，如果第 (u, v) 像素属于第 (i, j) 超像素，我们可以将映射写为 $g_s (p)=g_{_{i,j}} (u,v)=1$ ，否则为 0。

然而，在实践中，对于所有像素-超像素对去计算 $g_{_{i,j}} (u,v)$ 是不必要的且计算量很大。相反，对于给定的像素 p，我们将搜索限制在一组网格单元 Np的周围。这如图 2 所示。对于绿色框中的每个像素 p，我们只考虑红色框中的 9 个网格单元进行分配。因此，我们可以将映射写为张量 $G\epsilon \mathbb{Z}^{H\times W\times |N_{p}|}$ ，其中|Np|=9。

虽然已经提出了几种方法 [22, 36, 10, 1, 23, 25, 2, 16] 来计算 G，但我们在论文中采用了不同的方法。具体来说，我们使用深度神经网络直接学习映射。为了使我们的目标函数可微，我们将硬分配 G替换为软关联映射 $Q\epsilon \mathbb{\mathbb{R}}^{H\times W\times |N_{p}|}$ 。这里，条目 qs(p) 表示将像素 p 分配给每个 sϵNp的概率，使得。最后，通过将每个像素分配给网格单元来获得超像素的最高概率：

尽管一个像素只能与附近的 9 个单元之一相关联似乎是一个很强的约束，这导致难以生成长/大的超像素，但我们想强调紧凑性的重要性。超像素本质上是一种过度分割的方法。由于我们的超像素方法的主要目的之一是执行保留细节的下采样/上采样以辅助下游网络，因此更重要的是捕获局部区域的空间相干性。对于超出 9 单元区域的信息，将其分割成片段并留给下游网络通过卷积操作进行聚合是没有问题的。

Our method vs. SSN [16].

最近，[16] 提出了 SSN，一种用于超像素分割的端到端可训练深度网络。与我们的方法类似，SSN 也计算软关联图 Q。然而，与我们的方法不同的是，SSN 使用 CNN 作为提取像素特征的手段，然后将其馈送到软 K-means聚类模块以计算 Q。

我们举例说明图 3 中两种方法的算法方案。SSN 和我们的方法都可以利用 CNN 来使用特定任务的损失函数来学习复杂的特征。但不同与 SSN 的是，我们将特征提取和超像素分割合并为一个步骤。因此，我们的网络运行速度更快，并且可以轻松集成到现有的 CNN 框架中以执行下游任务（第 4 节）。

Figure 3：算法方案的比较。 SSN 训练 CNN 以提取像素特征，这些特征被馈送到迭代 K-means 聚类模块以进行超像素分割。我们通过预测像素-超像素关联图来训练 CNN 直接生成超像素。

3.2. Network Design and Loss Functions

Figure 4：我们的超像素分割的简单编码器-解码器架构。详细规格请参考补充资料。

如图4所示，我们使用具有跳过连接的标准编码器-解码器设计来预测超像素关联图Q。编码器将彩色图像作为输入，并通过卷积网络生成高级特征图。然后，解码器通过反卷积层逐渐对特征图进行上采样，以进行最终预测，同时还考虑了来自相应编码器层的特征。除了应用softmax的预测层外，我们对所有层都使用Leaky ReLU。

与SSN [16] 类似，我们的端到端可训练超像素网络的主要优势之一是关于损失函数的灵活性。回想一下，超像素的想法是将相似的像素分组在一起。对于不同的应用程序，人们可能希望以不同的方式定义相似性。

通常，令f(p) 成为我们希望保留超像素的像素属性。f(p) 的示例包括3维CIELAB颜色向量和/或语义标签的n维one-hot编码向量，其中N是类的数量，还有许多其他的。我们进一步通过像素的图像坐标p = [x，y]T表示像素的位置。

给定预测的关联图Q，我们可以计算任何超像素s的中心，cs = (us，ls)，其中us是属性向量，ls是位置向量，如下所示：

这里，回想一下，Np 是 p 周围超像素的集合，qs(p)是 p 与超像素 s 相关联的网络预测概率。在等式 (1) 中，每个和都取自所有可能分配给 s 的像素。

然后，任何像素 p 的重建属性和位置由下式给出：

最后，我们的损失函数的一般公式有两个术语。第一项鼓励训练模型对具有相似利益属性的像素进行分组，第二项强制执行超像素在空间上紧凑：

其中dist(∙，∙)是任务特定的距离度量，取决于像素属性f(p)，S是超像素采样间隔，m是平衡这两个项的权重。

本文考虑f(p)的两种不同的选择。首先，我们选择CIELAB颜色向量并使用ℓ2准则.作为距离度量。这就产生了一个类似于原始SLIC方法[1]的目标函数：

其次，在 [16] 之后，我们选择语义标签的one-hot编码向量，并使用交叉熵E(∙，∙)作为距离度量:

3.3. Connection to Spatial Propagation Network

最近，[8] 提出了卷积空间传播 (CSP) 网络，该网络学习亲和矩阵以将信息传播到附近的空间位置。通过将CSP模块集成到现有的深度神经网络中，[8] 在基于亲和力的视觉任务 (例如深度实现和细化) 中展示了改进的性能。在本节中，我们表明，使用学习关联图 Q 计算超像素中心，可以在数学上以 CSP 的形式编写，从而在学习 Q 和学习亲和矩阵之间建立联系，如 [8] 中所示。

给定输入特征量，具有核大小 K 和步长 S的卷积空间传播 (CSP) 可以写为：

其中是输出量，使得h = H/s和 ω= W/s，κi,j是来自亲和力网络的输出，使得,⊙是元素乘积。

同时，如图 2 所示，为了计算与第 (i, j) 个网格单元相关的超像素中心，我们考虑周围 3S × 3S 区域中的所有像素：

其中

u=i·S+a，v=j·S+b。

比较方程式 (6) 与(7)，我们可以看到，计算大小为 S × S 的超像素中心等效于使用从 Q 派生的 3S×3S 核执行 CSP。此外，κi,j(a,b) 和 qi,j(u , v) 表示在输入量中的空间位置 (u, v) 和在输出量中的 (i, j) 之间的学习权重。在这方面，在我们的工作中预测 Q 可以看作是在[8] 中学习亲和矩阵。

尽管如此，我们指出，虽然这项工作和 [8] 中提出的技术具有相同的数学形式，但它们的开发目的却截然不同。在 [8] 中，方程（6）被重复使用（S = 1），（来实现）将信息传播到附近的位置，而在这项工作中，我们使用等式(7) 计算超像素中心（S > 1）。

3.4. Experiments

我们在标准基准 BSDS500 [3] 上使用分割标签训练我们的模型，并将其与最先进的超像素方法进行比较。为了进一步评估该方法的通用性，我们还报告了它的性能，而无需在另一个基准数据集 NYUv2 [28] 上进行微调。

所有评估均使用 [33]提供的协议和代码进行。我们使用作者的原始实现运行 LSC [23]、ERS [24]、SNIC [2]、SEAL [35] 和 SSN [16]，并使用[33]中提供的代码运行 SLIC [1] 和 ETPS [43]。对于 LSC、ERS、SLIC 和 ETPS，我们使用 [33] 中报告的最佳参数，对于其余的，我们使用原作者推荐的默认参数。

Implementation details.

我们的模型使用 PyTorch 实现，并使用β1 = 0.9和 β2= 0.999 的Adam 进行优化。对于本实验，我们在方程式(5)中使用 Lsem，m = 0.003。在训练期间，我们将图像随机裁剪为 208 × 208 大小作为输入，并执行水平/垂直翻转以增强数据。初始学习率设置为 $5\times 10^{-5}$ ，在 200k 次迭代后降低一半。在大约 300k 次迭代时达到收敛。

对于训练，我们使用单元格大小为 16 × 16 的网格，这相当于将所需的超像素数量设置为 169。在测试时，为了生成不同数量的超像素，我们只需将输入图像的大小调整为适当的尺寸。例如，通过将图像大小调整为 480 × 320，我们的网络将生成大约 600 个超像素。此外，为了公平比较，大多数评估协议都期望超像素在空间上是连接的。为了加强这一点，我们将现成的组件连接算法应用到我们的输出，它将小于某个阈值的超像素与周围的超像素合并。

Evaluation metrics.

我们使用流行的指标来评估超像素方法，包括可实现的分割精度 (ASA)、边界召回和精度 (BR-BP) 以及紧凑性 (CO)。 ASA 使用超像素作为预处理步骤，量化可实现的分割精度，BR 和 BP 在给定基本事实的情况下，测量超像素的边界粘附性，而 CO 评估超像素的紧凑性。这些分数越高，分割结果越好。与 [33] 中一样，对于 BR 和 BP 评估，我们将边界容差设置为图像对角线四舍五入到最接近整数的 0.0025 倍。我们建议读者参考 [33] 以获得准确的定义。

Results on BSDS500.

Figure 7：不同 DL 方法有关超像素数量的平均运行时间。请注意，y 轴以对数刻度绘制。

Figure 2：超像素分割结果示例。与 SEAL 和 SSN 相比，我们的方法在对象边界粘附方面具有竞争优势或更好，同时生成更紧凑的超像素。顶行：BSDS500。底行：NYUv2。

BSDS500 包含 200 个训练图像、100 个验证图像和 200 个测试图像。由于每个图像都有多个标签可用，我们遵循 [16, 35] 并将每个注释视为一个单独的样本，这会产生 1633 个训练/验证样本和 1063 个测试样本。我们使用训练和验证样本来训练我们的模型。

图 5 报告了所有方法在 BSDS500 测试集上的性能。我们的方法在所有评估指标上都优于所有传统方法，除了 SLIC 在 CO 方面。与其他基于深度学习的方法 SEAL 和 SSN 相比，我们的方法在 ASA 和 BR-BP 方面取得了有竞争力或更好的结果，并且在 CO 方面取得的得分更高。图 8 进一步显示了不同方法的示例结果。请注意，正如 [33] 中所讨论的，边界粘附和紧凑性之间存在众所周知的权衡。尽管我们的方法在所有指标上都没有优于现有方法，但似乎在它们之间取得了更好的平衡。还值得注意的是，通过获得更高的 CO 分数，我们的方法能够更好地捕获空间相干信息，并避免过多关注图像细节和噪声。如 NYUv2 实验结果所示，这一特性往往会导致更好的泛化性。

我们还比较了基于深度学习 (DL) 方法的运行时间差异。图 7 报告了关于在 NVIDIA GTX 1080Ti GPU 设备上生成的超像素的数量的平均运行时间。我们的方法比 SSN 快 3 到 8 倍，比 SEAL 快 50 多倍。这是意料之中的，因为我们的方法使用简单的编码器-解码器网络直接生成超像素，而 SEAL 和 SSN 首先使用深度网络来预测像素亲和力或特征，然后应用传统的聚类方法（即图切割或 K-means）获得超像素。

Results on NYUv2.

NYUv2 是最初为室内场景理解任务（indoor scene understanding tasks）提出的 RGB-D 数据集，其中包含 1,449 张带有对象实例标签的图像。通过去除图像边界附近的未标记区域，[33] 已经在 400 个大小为 608 × 448的测试图像的子集上开发了一个基准，用于超像素评估。为了测试基于学习的方法的普遍性，我们直接将 SEAL、SSN 的模型和我们在 BSDS500 上训练的方法应用到该数据集，而无需任何微调。

图6显示了NYUv2上的所有方法的性能。通常，所有基于深度学习的方法都表现良好，因为它们与传统方法相比，能够继续获得竞争优势或更好的性能。此外，我们的方法显示出比SEAL和SSN更好的通用性，这通过比较图5和6中的相应曲线是显而易见的。具体来说，我们的方法在BR-BP和CO方面优于SEAL和SSN，并且在ASA方面是最好的方法之一。视觉结果如图8所示。

4. Application to Stereo Matching

立体匹配是一项经典的计算机视觉任务，其目标是在一对校正后的图像之间找到像素对应关系。最近的文献表明，深度网络可以通过构建4D代价卷（高度×宽度×视差×特征通道）并使用3D卷积来汇合信息，从而提高匹配精度[7,8,46]。然而，由于额外的“差异”维度，这种设计会消耗大量内存，从而限制了它们生成高分辨率输出的能力。一种常见的补救方法是对预测的低分辨率视差量进行双线性上采样，以实现最终的视差回归。因此，对象边界通常会变得模糊，精细细节也会丢失。

在本节中，我们提出了一种基于预测超像素的下采样/上采样方案，并展示了如何将其集成到现有的立体匹配管道中，以生成高分辨率输出，从而更好地保留对象边界和精细细节。

4.1. Network Design and Loss Function

图 1 概述了我们的方法设计。我们选择 PSMNet [7] 作为我们的任务网络。为了结合我们新的下采样/上采样方案，我们将其特征提取器中的所有步长为2 卷积更改为步长为1，并删除空间维度中的双线性上采样操作。给定一对输入图像，我们使用我们的超像素网络来预测关联图Ql、Qr 并使用方程式（1）计算超像素中心图。然后将中心图（即下采样图像）反馈到修改后的 PSMNet 以获得低分辨率视差量。接下来，根据等式（2），使用 Ql 将低分辨率体积上采样到原始分辨率，并使用视差回归计算最终的视差。我们请读者参考补充材料以了解详细说明。

与 PSMNet [7] 相同，我们使用权重 α1= 0.5、 α2 = 0.7 和 α3= 1.0 的 3 阶段平滑 L1 损失来进行视差预测。我们使用 SLIC 损失（方程（4））进行超像素分割。最终的损失函数为：

其中N是像素总数，λ是平衡这两项的权重。我们为所有实验设置 λ= 0.1。

4.2. Experiments

我们已经在三个公共数据集上进行了实验，即SceneFlow [27]，HR-VS [42] 和Middlebury-v3 [30]，以将我们的模型与PSMNet进行了比较。为了进一步验证联合学习对超像素和视差估计的好处，我们为我们的方法训练了两个不同的模型。第一个模型Ours_fixed中，我们固定了超像素网络中的参数，并训练网络的其余部分 (即修改后的PSMNet) 进行视差估计。在第二个模型Ours_joint中，我们联合训练图1中的所有网络。对于这两种模型，都在SceneFlow上使用SLIC损耗对超像素网络进行预训练。实验在 4 个 Nvidia TITAN Xp GPU 上进行。

Results on SceneFlow.

SceneFlow是一个合成数据集，包含35,454训练和4,370测试框架，具有密集的真实视差。在 [7] 之后，我们排除了训练和测试时间差异大于192的像素。

在训练期间，我们在SLIC损失中设置m = 30，并将输入图像随机裁剪为大小512 × 256。为了像PSMNet一样在输入分辨率的1/4下进行3D卷积，我们预测网格单元大小为4 × 4的超像素以执行4 × 下采样/上采样。我们训练了13个阶段的模型，批次大小为8。初始学习率为 $1\times 1 0^{- 3}$ ，在11和12阶段后分别降低为 $5\times 1 0^{- 4}$ 和 $1\times 1 0^{- 4}$ 。对于PSMNet，我们使用作者的实现，并以与我们的方法用相同的学习时间表对其进行培训。

我们使用标准终点误差 (EPE) 作为评估指标，该指标测量预测的视差与基本事实之间的平均像素方向欧几里得距离（the mean pixel-wise Euclidean distance）。如表1所示，Ours_joint达到了最低的EPE。还要注意，Ours_joint性能比原始PSMNet差，这证明了联合训练的重要性。定性结果如图9所示。可以看到，Ours_joint和Ours_joint都比原始PSMNet更好地保留了精细的细节。

Results on HR-VS.

Figure 9：SceneFlow和HR-VS的定性结果。我们的方法能够更好地保留细节，例如突出显示区域中的线和镜像框架。顶排：SceneFlow。底行：HR-VS。

HR-VS是一个带有城市驾驶视图的合成数据集。它包含780幅分辨率为2056×2464的图像。有效的视差范围是[9.66，768]。由于没有发布测试集，我们随机选择680帧进行训练，并使用其余帧进行测试。由于数据量相对较小，我们在之前的实验中对该数据集的SceneFlow上训练的三个模型进行了微调。

由于高分辨率和大视差，原始PSMNet无法直接应用于全尺寸图像。我们按照惯例将输入图像和视差图下采样到 1/4 大小进行训练，并将结果上采样到全分辨率进行评估。对于我们的方法，我们预测网格单元大小为16×16的超像素，以执行16×下采样/上采样。在训练过程中，我们将设置m=30，并随机将图像裁剪成2048×1024的大小。我们训练（批量为4的200个阶段）所有方法。初始学习率为 $1\times 1 0^{- 3}$ 并在150个阶段之后减少到 $1\times 1 0^{- 4}$ 。

如表1所示，我们的模型优于原始PSMNet。通过联合训练，EPE显著降低。请注意，与SceneFlow相比，我们在这个高分辨率数据集上观察到了更大的性能增益，因为我们在HR-VS上执行了16倍的上采样，但在SceneFlow上仅执行了4倍的上采样。定性结果如图9所示。

Results on Middlebury-v3.

Middlebury-v3 是具有 10 个训练帧、13 个验证帧和 15 个测试帧的高分辨率真实数据集。我们同时使用训练和验证帧来调整Our_joint模型，该模型在SceneFlow上使用 16 × 16 超像素预训练。我们设置 m = 60 并以批量大小 4 训练模型 30 个阶段。初始学习率为 $1\times 1 0^{- 3}$ ，并在 20 个阶段后除以 10。

请注意，对于实验，我们的目标不是在 Middlebury-v3 官方排行榜上获得最高排名。但相反，是要验证所提出的基于超像素的下采样/上采样方案的有效性。基于排行榜，我们的模型在所有指标上都优于 PSMNet，其中一些指标如表 2 所示。结果再次验证了所提出的基于超像素的下采样/上采样方案的好处。

5. Conclusion

本文提出了一种用于超像素分割的简单全卷积网络。在基准数据集上的实验表明，该模型在计算上高效，并且可以始终以良好的泛化性实现最先进的性能。此外，我们还证明了在一个流行的立体匹配网络中，使用超像素来保留物体边界和精细细节可以获得更高的视差估计精度。未来，我们计划将所提出的基于超像素的下采样/上采样方案应用于其他密集预测任务，如对象分割和光学流量估计，并探索在这些应用中使用超像素的不同方式。

补充材料

在第1节和第2节中，我们分别提供了超像素分割网络和立体声匹配网络的详细体系结构设计。在第3节中，我们报告了BSDS500和NYUv2上的超像素分割，在Sceneflow，HR-VS和Middlebury-v3上的视差估计以及HR-VS上的超像素分割的其他定性结果。

1.超像素分割网络

表 1 显示了我们的超像素分割网络的具体设计。我们使用带有跳跃连接的标准编码器-解码器设计来预测超像素关联图 Q。除了应用了 softmax 的关联预测层 (assoc) 之外，所有卷积层都使用了批量归一化(BN)和负斜率 0.1 的leaky Relu。

Table 1：我们的超像素分割网络架构规范。

2.立体匹配网络

表2显示了立体匹配网络的架构设计，其中我们修改了PSMNet[1]，以执行基于超像素的下采样/上采样操作。我们将其命名为基于超像素的PSMNet（SPPSMNet）。与原始PSMNet不同的层以粗体突出显示。在表2中，我们使用的输入图像大小为256×512，最大视差D=192，这与原始PSMNet相同，我们将超级像素网格单元大小设置为4×4，以执行4×下采样/上采样。

对于具有高分辨率图像的立体匹配任务（即 HR-VS 和 Middilebury-v3），我们使用输入图像尺寸 1024 × 2048，最大视差 D = 768，我们将超像素网格单元尺寸设置为 16 × 16 以执行 16 × 下采样/上采样。为了进一步减少GPU内存使用，在高分辨率立体匹配任务中，我们将超像素分割网络中的“cnv4a”和“cnv4b”层的通道数从256减少到128，去除超像素分割中的批量归一化操作网络，并在视差回归后执行基于超像素的空间上采样。

Table 2：我们的立体声匹配网络 (SPPSMNet) 体系结构的详述。

3. 额外的定性结果

3.1超像素分割

图 1 和图 2 显示了 BSDS500 和 NYUv2 上超像素分割的额外定性结果。 SEAL、SSN和ours这三种基于学习的方法可以恢复比SLIC更详细的边界，例如图1第二排的风车轮毂和图2第四排的右床枕头. 与 SEAL 和 SSN 相比，我们的方法通常会生成更紧凑的超像素。

3.2.立体匹配的应用

图3、图4和图6分别显示了在SceneFlow、HR-VS、Middlebury-v3上的视差预测结果。与PSMNet相比,我们的方法能够更好地保留细节,比如耳机线(图3)第七行,街灯柱(图4)的第一行和树叶(图6)的第五行。我们也观察到,我们的方法可以更好地处理无纹理领域,如图4第七排中后面的汽车。

这可能是因为我们的方法在将图像发送到修改后的 PSMNet 之前直接对图像进行了 16 次下采样，而原始 PSMNet 仅对图像进行了 4 次下采样，并且稍后使用 stride-2 卷积进行了另外的 4 倍下采样。我们方法的输入接受提交 (原始图像) 实际上比原始PSMNet更大，这使我们的方法能够更好地利用无纹理区域周围的上下文信息。

图5可视化superpixel分割结果的固定和我们联合hr数据集的方法。一般来说,Superpixels由我们共同更紧凑,更多关注差异边界。颜色边界与差异不一致的边界,诸如水在路上坑在图5的第二行,往往被我们忽略的联合。这种现象反映了差距的影响估计在superpixels联合训练。

图 5 可视化了Ours_fixed和 Ours_joint方法在 HR-VS 数据集上的超像素分割结果。一般来说，Ours_joint生成的超像素更紧凑，更关注视差边界。与视差边界不对齐的颜色边界，例如图5第二排道路上的水坑，经常被Ours_joint忽略。这种现象反映了视差估计对联合训练中超像素的影响。

Superpixel_Segmentation_With_Fully_Convolutional_Networks ---CVPR_2020_paper（翻译）

abstract