CVPR2022 | PanopticDepth：深度感知全景分割的统一框架

前言本文提出了一种基于深度感知的全景分割（DPS）的统一框架，旨在从一幅图像中重建具有实例级语义的三维场景。该框架将动态卷积技术应用于全景分割（PS）和深度预测任务中，以生成特定于实例的内核来预测每个实例的深度和分割掩码。此外，利用实例级深度估计方案，添加了额外的实例级深度线索，以通过新的深度损失来帮助监督深度学习。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文：PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation

论文：arxiv.org/pdf/2206.00…

代码：github.com/NaiyuGao/Pa….

背景

深度感知全景分割（DPS）是场景理解中的一项新的挑战性任务，它试图从单个图像构建具有实例级语义理解的三维场景。

DPS的一个简单解决方案是在全景分割（PS）网络中添加一个密集的深度回归头，为每个标记的像素生成一个深度值，该方法直观但次优。

由于它使用两个独立的分支处理这两个任务，因此它没有探索它们之间的互利关系，尤其是没有利用方便的实例级语义线索来提高深度准确性。

另外，作者观察到，相邻实例的像素通常具有不连续的深度。例如，一条线中的两辆车可能有不同的深度。因此，使用相同的像素深度回归器很难预测两辆车的准确深度。

另一方面，作者考虑到这些像素来自不同的车辆，如果分别使用单独的回归器，则有利于深度估计。

按照上述思路，作者在本文中提出了一个可以以相同的实例方式预测掩码和深度值的统一的PanopticDepth模型框架（如图1）。

图1 深度感知全景分割统一解决方案的示例

贡献

1.提出了一种特定于实例的动态卷积核技术将深度估计和全景分割方法统一起来，从而提高了这两种任务的性能。

2.为了简化深度估计，受批量归一化的启发，提出将每个实例深度图表示为三元组，即归一化深度图、深度范围和深度偏移，将原始实例深度映射的值规范化为[0，1]，以提高了学习效率。

3.基于新的深度图表示（如深度偏移）添加了实例级深度统计，以加强深度监控。为适应这种新的监督，提出了相应的深度损失，以改进深度预测。

方法

作者提出了一种统一的深度感知全景分割模型PanopticDepth，它以相同的实例方式预测掩模和深度值。除了主干网和特征金字塔网络之外，它还包括三个子网络，包括用于生成实例分类的核生成器、实例特定掩码和深度卷积核、用于生成实例掩码的全景分割模型以及用于估计实例深度的实例深度图生成器。网络架构如图2所示。

图2 PanopticDepth框架

1.内核生成器

通过核生成器子网络生成实例分类、掩码卷积核和深度估计核（图2的上半部分）。内核生成器基于最先进的全景分割模型PanopticFCN，该模型采用了PS的动态卷积技术，与其他最新方法相比，所需的训练时间和GPU内存更少。

作者采用的内核生成器分为内核生成器和内核融合两个阶段。在内核生成器阶段，将FPN中第i阶段的一个单阶段特征作为输入，生成器生成一个内核权重映射，以及分别为对象和对象生成的两个位置映射，给定每个FPN阶段的位置图和核权重图，在核融合阶段，合并多个FPN阶段的重复核权重，通过提出的自适应核融合（AKF）操作实现的。