DSGN：基于深度立体几何网络的3D目标检测（香港大学提出）

作者：Tom Hardy
Date：2020-2-17
来源：DSGN：基于深度立体几何网络的3D目标检测（香港大学提出）

原文链接：https://arxiv.org/pdf/2001.03398.pdf

主要思想与创新点

大多数最先进的三维目标检测器严重依赖激光雷达传感器。由于在三维场景中的预测不准确，基于图像的方法与基于激光雷达的方法在性能上仍有很大差距。本文提出了深度立体几何网络（DSGN）的方法，通过在可微的体积表示：三维几何体上检测三维物体，有效地编码了三维规则空间的三维几何结构，显著地减小了这一差距。通过这种表示，可以同时学习深度信息和语义线索。本文首次提供了一个简单有效的基于单级立体的3D检测流水线，它以端到端的学习方式联合估计深度和检测3D对象。该方法优于以前的基于立体的3D检测器（在AP方面大约高出10个），甚至达到了KITTI 3D目标检测排行榜上的几个基于LiDAR方法相当的性能，代码将在后期公开。

本文主要有以下创新点：

为了弥补二维图像与三维空间之间的差距，在平面扫描体中建立立体对应约束，并将其转化为三维几何体，从而可以对三维几何体和语义线索进行编码，用于三维规则空间的预测。
设计了一个单一的统一网络，用于提取用于立体匹配的像素级特征和用于目标识别的高级特征。本文的pipelines可以联合估计场景深度和检测三维世界中的3D Object，从而实现实际应用。
提出的网络性能优于官方KITTI排行榜上所有其它基于立体的3D物体探测器（AP高出10个）。

网络结构

有效三维表示的关键在于对三维空间的精确三维几何信息进行编码，立体相机为计算深度提供了明确的像素对应约束。为了设计一个统一的网络来利用这一约束，本文探索了能够同时提取立体对应的像素级特征和语义线索的高级特征的深层结构。假设像素对应约束沿着投影光线施加到每个像素，其中深度被认为是确定的，本文从双目图像对中创建一个中间平面扫描体来学习摄像机视锥中的立体对应约束，然后将其转换为三维空间中的三维体。在这个从平面扫描体中提取三维几何信息的三维体中，能够很好地学习真实世界对象的三维特征。

在这里插入图片描述
如上图所示，DSGN网络的输入为左右相机的2D图像，主要包括2D Feature Extraction模块、Constructing PSV and 3DGV模块、3D Object Detection模块以及Depth Estimation模块。

针对2D Feature Extraction模块：主要参考PSMNet结构，并进行了少量的修改。

针对Constructing PSV and 3DGV模块：为了学习三维规则空间中的三维卷积特征，首先通过将平面扫描体扭曲到三维规则空间来创建三维几何体（3DGV）。PSV是通过将图像以等间距的深度（蓝色虚线）投影到左侧的摄像机视锥中来构建的，该视锥在三维世界空间（左侧）和图像深度空间（中间）中显示。汽车在中间显示为扭曲的，并通过3D Hourglass进行卷积处理。后期通过摄像机内参矩阵K映射，PSV被扭曲为3DGV，从而恢复车辆正常姿态，并和3DGV特征进行特征融合。

在这里插入图片描述

针对3D Object Detection模块：参考了FCOS思想，并提出了一种基于距离的目标分配方法。
针对Depth Estimation模块：预测出单通道的深度图像，并对深度进行离散化均匀间隔采样。
损失函数定义：本文中的损失函数主要针对深度值误差和3D box预测的类别、中心坐标和尺寸的误差。

实验结果

我们的方法在流行的KITTI 3D目标检测数据集上进行了评估，该数据集提供7481个立体图像对和点云用于训练以及7518幅用于测试，真值深度图由点云生成。训练数据包含汽车、行人和骑自行车者。下表详细列出了多模型性能对比结果：

在这里插入图片描述

Tom Hardy 博客专家

发布了265 篇原创文章 · 获赞 295 · 访问量 41万+

他的留言板关注