14.CAPE：Camera View Position Embedding for Multi-View 3D Object Detection

CAPE：用于多视图三维物体检测的相机视图位置嵌入

CVPR2023

文章结构：

摘要

1.引言

2.相关工作

2.1基于DETR的二维检测

2.2单眼三维检测

2.3多视图三位检测

2.4视图转换

3.我们的方法

4.实验

4.1数据集

4.2实施细节

4.3与最先进技术的比较

4.4消融研究

4.5可视化

4.6稳健性分析

5.结论

参考文献

1.针对什么问题（摘要）

（引言）为了缓解从二维图像到全局空间的视图转换困难，提出了一种基于局部视图位置嵌入的简单有效方法，称为CAPE（CAmera view Position Embedding ）。

（摘要）目前检测三维物体方法：基于查询的方法，依靠全局三维位置嵌入来学习图像和三维空间之间的几何对应关系。

（摘要）问题：由于相机的外在因素变化，直接将二维图像特征与全局三维PE（位置嵌入）相互作用可能会增加学习视图转换的难度。

2.解决办法（摘要）

解决了从多视角图像中检测三维物体的问题。

三维物体检测方法中的三维位置嵌入问题

应用领域：自动驾驶

3.创新点/贡献点（引言）

（引言）提出了一种新的多视图三维检测方法：称为CAPE（CAmera view Position Embedding ），基于相机视图位置嵌入，它消除了由不同相机外在因素引起的视图转换的差异。

(摘要：在本地相机视角坐标系而不是全局坐标系下形成三维位置嵌入，这样三维位置嵌入就不需要编码相机的外在参数。)
我们进一步将我们的CAPE推广到时间建模中，通过利用以前的框架进行物体查询，并明确的利用自我运动来提高三维物体检测和速度估计。
在nuScenes数据集上的大量实验表明了我们提出的方法的有效性，并且我们在具有挑战性的nuScenes数据集上实现了所有无激光雷达（LiDAR）方法中的最先进（state-of–the-art）水平。

4.用了什么方法（引言）

（引言）它在每个摄像机的local系统中而不是在三维全局空间中进行三维位置嵌入。如图2（b）所示，我们的方法学习了从二维图像到局部三维空间的视图转换，这消除了由不同相机外因引起的视图转换的变异。

（引言）其中遇到问题解决：鉴于三维PE是在局部空间，输出查询是在全局坐标系中定义的，我们采用双边注意机制来避免不同表示空间的混合嵌入，如图1（b）所示。

5.结论

本文研究了基于稀疏查询的多视点三维物体检测方法中的三维位置嵌入问题，并提出了一种简单而有效的方法CAPE。
我们在局部摄像机视图系统下而不是在全局坐标系下形成三维位置嵌入，这大大降低了视图变换学习的难度。
此外，我们将CAPE扩展到时间建模，利用了时间框架的独立查询之间的融合。即使在没有激光雷达监控的情况下，它也能实现最先进的性能，并为多视图3D对象检测中的位置嵌入提供了新的见解。

6.局限性和未来工作

当涉及长期帧的时间融合时，计算和存储成本将是无法承受的。

在未来，我们将深入挖掘自动驾驶系统的二维和三维特征的更有效的空间和时间交互。

14.CAPE：Camera View Position Embedding for Multi-View 3D Object Detection笔记