A Multi-Scale Guided Cascade Hourglass Network for Depth Completion

1       文献信息

题目:A Multi-Scale Guided Cascade Hourglass Network for Depth Completion

作者: Ang Li等(西安交通大学、腾讯实验室)

期刊:WACV 2020

原文: http://openaccess.thecvf.com/content_WACV_2020/papers/Li_A_Multi-Scale_Guided_Cascade_Hourglass_Network_for_Depth_Completion_WACV_2020_paper.pdf

2       背景

  精确的深度感知(图片中各像素点距离拍摄设备的距离)是许多计算机视觉应用的关键任务,然而现实中的雷达等测距设备无法生成高分辨率的深度图,因此在高分辨率图像的指导下进行深度补充,即从稀疏测量中估计稠密深度图,在许多计算机视觉应用中是必不可少的。

  以往基于全卷积网络的方法大多不能有效地处理深度图中的各种模式。为了解决这一问题,本文提出了一种多尺度级联沙漏网络。在不同大小的稀疏输入的级联网络中,不同层次的结构被特殊的沙漏捕获。编码器从彩色图像中提取多尺度特征,为所有沙漏提供深度指导。多尺度训练策略进一步激活了级联阶段的效果。通过明确划分各个子模块的作用,我们可以用简单的架构实现组件。大量的实验表明,我们的轻量化模型与目前最先进的深度集成基准测试相比,在运行时具有较低的复杂性。

3       方法

数据示例:

  如图1所示为KITTI数据集中完成深度的示例。(a)从上到下的形式:引导彩色图像,为可视化而放大的输入稀疏深度,地面真实深度。在相机图像空间中,远处的物体被缩小,而近处的物体由于透视投影而被放大。(b)远处区域的深度差异更大(在一个9×9的窗口中计算),但是像素的比例比近处区域要小。

 

概述:

  给定一个稀疏深度图sD和一个与sD对齐的制导RGB图像I,我们的目标是恢复一个密集深度图。为了解决这一问题,我们提出了一种多尺度引导级联沙漏网络(MSG-CHN)。框架如图2所示。该网络以两种不同的方式处理稀疏深度和图像输入。三个级联沙漏分别以四分之一大小的稀疏映射sd2、半大小的sd1和全大小的sd0作为输入,捕获不同尺度的结构。一个RGB编码器与层下采样卷积适用于图像I多尺度制导特性。图像和深度特征在深度通道中的每个编码器处进行协调。剩余的连接整合了三个沙漏的预测,从最粗的d2逐渐恢复到较细的d1,最终达到预测d0。详细的逐层网络配置如表1所示。

 

级联沙漏网络:

  深度路径由三个级联沙漏模块组成,每个模块获取一定分辨率的深度地图输入,并给出相同分辨率的预测。在开始时,将1/4大小的稀疏深度输入第一个沙漏,以预测最粗的特征尺度,并在相同分辨率下进行初始深度估计。通过低分辨率的输入,沙漏可以很容易地捕捉到大的结构,只需要几层,这就足够提供一个场景的摘要。作为参考的初始预测,连同第一个沙漏的特征一起向上采样到半分辨率,并输入到下面的模块中。1/2向下采样的稀疏深度也参与第二个沙漏来提供额外的细节。通过剩余连接将来自中层模块的输出与初始深度融合,从而修改估计。使用全分辨率输入,基本模块第三次重复,以给出最终的带有细粒度细节的密集映射。

  在对稀疏输入进行降采样时,尽可能多地保留信息是非常重要的。受[21]中提出的稀疏不变卷积的启发,我们将标准平均池应用于稀疏映射的降采样。下采样稀疏深度图sDk上(x,y)位置的数据是原始稀疏图sD上像素(2k x, 2k y)有效邻域的平均值,其中2k为下采样因子。该操作可以简单地实现为原map sD的平均池结果与指示映射C的除法,其中C(x,y) = 1表示sD中的像素(x,y)已被分配,否则C(x,y) = 0。

 

多尺度的指导(Multi-Scale Guidance):

  与稀疏深度图不同,RGB图像信息量大,因此在网络中使用下采样卷积层来提取多尺度特征(非传统的采样方式)。经过4层叠加的降采样卷积,每一步的步长为2、深度特征图的空间分辨率为原始输入尺寸的1/16,与深度分支的最小空间特征尺寸一致。

  提取的多尺度图像特征与深度特征在深度路径上的解码器阶段进行融合。特别是深度分支由3个不同空间分辨率的预测模块组成。我们结合了RGB特征和深度特征,所有的深度沙漏都可以通过图像引导来预测一个稠密的地图。在我们的设计中,级联网络中的译码层总是能够找到具有相应分辨率的引导特征。通过添加操作将RGB和深度特征融合,从而压缩解码器中特征通道的长度。

损失函数:

 

4       结果

级联沙漏结构的验证:

网络变型示意图如图3所示,比较结果见表2。 

 

  结果显示即使在早期融合数据的情况下,级联网络仍比单级网络具有优越性。此外,用其他配置替换任何当前组件将导致性能下降。它证明了稀疏深度可以在多尺度处理开始时向下采样,而带有子采样卷积的单个编码器适合于图像数据。

  此外,还有结果表明,我们的多尺度输入网络能够有效地处理不同的模式,同时降低计算复杂度。

采样方式的影响:

 

  如图4所示,在网格上直接采样会导致现有数据的消失。双线性降采样和平均池用无效的零值污染了结果。此外,最大池打破了固有结构。

多尺度训练的验证:

 

  结果表明,引入中间监督可以提高绩效。我们在图5中可视化每个沙漏的中间预测示例。在我们的多尺度训练下,第一时间学习并获得了场景深度的摘要。以下阶段逐步提供相应规模的详细信息。

整体性能:

 

该方法与KITTI基准上的顶级方法相比,具有较低的运行时间和较低的模型复杂度。提出的模型参数数是DeepLiDAR 的百分之一,而精度上的与其相当。

5       结论

本文提出了一个轻量级多尺度引导级联沙漏网络的深度合成任务。级联网络由简单的沙漏组成,具有多个尺度的稀疏深度输入,以专门处理不同的结构。每个沙漏从RGB编码器接收不同级别的指导。子网络可通过多尺度学习策略关注特定的模式。通过分配具有专门功能的模块,可以用简单的体系结构实现网络。

启发:本文采用的级联沙漏网络的核心思想是级联多尺度(与结果不同分辨率)的卷积模块,下采样模块使用卷积方式,保留图像特征,且中间生成的低分辨率结果的准确性在损失函数中也有所体现,最终实现从低分辨率的结果过渡到高分辨率的结果。

猜你喜欢

转载自www.cnblogs.com/zzm96/p/12383486.html
今日推荐