3D目标检测论文阅读:BEVFusion4D

BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird’s-Eye-View via Cross-Modality Guidance and Temporal Aggregation

论文链接:https://arxiv.org/abs/2303.17099

代码暂未开源(2023.05.29)

0. 摘要

将激光雷达和相机信息整合到BEV (Bird - eye - view)中已成为自动驾驶中三维目标检测的重要课题。现有的方法大多采用独立的双分支框架来生成激光雷达和相机的BEV,然后进行自适应模态融合。由于点云提供了更精确的定位和几何信息,因此在从图像中获取相关语义信息之前,点云可以作为可靠的空间信息。因此,我们设计了一种激光雷达引导的视图转换器(LGVT),以有效地获得BEV空间中的相机表示,从而有利于整个双支路融合系统。LGVT以摄像机BEV作为原始语义查询,反复利用LiDAR BEV的空间线索,跨多个摄像机视图提取图像特征。此外,我们通过提出的时间可变形对齐(TDA)模块将我们的框架扩展到时间域,该模块旨在聚合来自多个历史框架的BEV特征。包括这两个模块,我们的框架BEVFusion4D在3D物体检测方面取得了最先进的结果,在nuScenes验证集上mAP和NDS分别为72.0%和73.5%,在nuScenes测试集上mAP和NDS分别为73.3%和74.7%。

1. 引言

在这里插入图片描述

激光雷达和相机传感器能够以不同的方式获取周围环境。由激光雷达传感器产生的点云通过发射波长感知场景。它擅长描绘物体的精确空间位置和提供可靠的几何图形信息,与点云相比,图像数据记录了非常详细的场景图像,并携带了更密集的语义和纹理信息。因此,它是公认的前传感器的重要补充。由于激光雷达和相机的固有特性,如何有效地整合这两种模式的表示仍然是一个研究课题。为了有效利用相机数据并在融合过程中进一步维护语义信息,我们提出了一种简单而有效的解决方案,旨在通过并发激光雷达的明确指导来增强相机的BEV特征。在图1©中,我们设计了一个基于注意力的相机视图转换器,名为LGVT。它将激光雷达作为先验条件,学习有效地获取目标的语义信息。由于激光雷达的点云描述了相对准确的场景空间分布,因此它们可以作为校准目标相关语义的先决条件,从而为融合提供更有价值的信息。在图2中,我们将摄像机BEV的可视化结果与BEVFusion进行了对比[20]。利用LiDAR的空间先验,我们的相机BEV特征可以很容易地区分场景轮廓和目标位置,这在BEVFusion中是不可见的

如图1(a)所示,来自主干的编码特征被转移并统一为Bird-Eye-View (BEV)等中间特征表示[27],尽管这种范式在社会上已经得到普及,但相机在感知几何信息方面的困难限制了相机分支的影响,并阻碍了系统融合图像数据中的语义信息。

另一方面,相邻帧中编码的互补视图和运动线索促使近期的研究将时间信息整合到框架中[18,9]。作为先驱之一,LIFT[48]标志着在融合框架中利用时空信息的首次尝试。如图1(b)所示,它将输入的四维数据作为一个整体,通过经典的变压器架构直接对顺序的跨传感器数据进行聚合。然而,由于全局自关注机制,该融合系统存在计算量过大的问题。我们将空间和时间特征融合在两个独立的模块中,从而大大降低了集成时空信息的总体成本和复杂性。此外,为了有效地聚合连续帧的空间融合BEV特征,我们提出了一种基于可变形注意力策略的时间融合模块[51]。该模块具有动态关系建模和稀疏采样的能力,以一种经济有效的方式将长跨度的时间特征联系起来。我们还证明了我们的模块提供了在没有显式运动校准的情况下对齐运动对象的时间特征的潜力。
在这里插入图片描述

在本文中,提出了BEVFusion4D与两个专用模块在空间和时间域,以促进多帧跨模态信息聚合。我们将我们的贡献总结为三个方面:

1)提出了一种学习时空域整体特征表示的高效融合框架BEVFusion4D。

2)我们提出的激光雷达引导视图转换器(LGVT)旨在通过空间先验来生成高效的相机BEV,这有利于语义信息的传播和空间域特征融合。

此外,我们还设计了一个时间变形对齐模块(TDA)来覆盖相邻帧的补充信息。

3)我们对nuScenes数据集的检测轨迹进行了广泛的研究,以验证我们的方法的性能,并在纯空间和时空情况下观察到一致的领先优势。

2. 相关工作

了解BEV领域的人应该对这部分内容很熟悉,直接放机翻了。

2.1 单模态3D物体检测

基于单一模态的3D检测旨在预测物体信息作为3D边界框的一种形式,给定传感结果仅来自一个主要来源,如激光雷达点云或相机图像。基于LiDAR传感器输入的方法要么直接从分散的点集回归目标预测[17,31,43],要么将其转换为统一的网格。例如,PointNet[32]等基于点的方法使用点云,并从端到端网络聚合其特征。另一组作品从柱编码[13,35]、体素编码[49]或范围图像编码[8,36]的角度来解决问题,并通过检测器处理编码后的特征。相比之下,基于相机的方法通常通过二维图像主干提取与视图相关的密集图像特征,并组成统一的三维特征表示,如鸟瞰图(BEV),用于三维预测。根据[29,34],通过预测每个特征点的离散深度分布,将编码后的二维图像特征投影到三维锥台网格中。BEVDepth[16]进一步加入深度监督,以呈现更好的特征截锥体。其他近期的研究[39,18,12,23]受到DETR[4]的启发,提出通过变压器架构对图像特征之间的交互进行建模,并通过一组对象查询产生最终预测。虽然大多数方法在该领域取得了实质性的进步,但从多个传感器源聚合信息通常超出了他们的领域。

2.2 多模态3D目标检测

近年来,基于多模态的3D检测技术也得到了越来越多的关注,并认为来自多个来源的信息将相互补偿,从而有利于整体检测结果。作为先锋之一,PointPainting[37]开辟了一种点级融合的方法,将从语义分割网络中检索到的图像语义信息附加到输入点中,从而实现模态交互。通过各种方法,如[38,46,11],进一步扩展了这一点。与前者不同,[47,40]的工作代表了一种在特征级别实现跨模态关系的新方法。最近的作品试图从各种概念中联想出相应的形态特征。BEV融合[20,25]提出了在BEV空间中采用模态融合的有效框架。像[1,15,6]这样的方法利用了类der结构[4,51]的洞察力,利用注意力机制来加强特征之间的自适应关系。[42]提出了一种双边表示来推进信息交换。与现有方法相比,我们的工作受到基于BEV的解决方案的启发,保持了整体框架的简单性,但通过专用查询模块和时间融合策略实现了竞争性能。

2.3 三维目标检测中的时序融合

时间信息的价值在于提供运动线索和物体的补充视图。这激发了探索目标检测任务中时间融合的各种建议。例如,4D-Net[30]开发了一个动态连接学习的网络,逐步融合时序LiDAR和RGB图像序列。Huang等人[10]利用了LSTM在时间特征相关性建模中的作用。此外,[33,44]的工作采用单帧检测器提取目标建议,并进一步从多帧中组合建议特征。PETRV2[24]对三维位置编码进行了扩展,实现了时间对齐,并及时融合了图像特征。BEVFormer[18]通过流行的可变形变压器,构建了时空图像信息的交互。LIFT[48]提出了一种基于全局自关注机制的多模态传感器时空融合框架。然而,使用这种策略直接融合四维特征会带来不必要的计算成本,不利于有效的信息交换。相比之下,我们在空间融合的BEV特征之上实现了时间积分,这大大减少了计算预算。受BEVFormer[18]的启发,我们还采用了一个可变形的变压器,通过时间稀疏采样策略有效地整合特征。

3. 方法

我们首先在3.1节中介绍了特征提取。第3.2节提供了空间融合的程序,并详细解释了我们的LGVT模块。上述两个阶段在每个时间框架上进行相同的操作。此外,我们描述了基于所提出的TDA模块的时间融合方法(第3.3节)。

在这里插入图片描述

3.1 激光雷达和相机特征提取

在特征提取阶段,我们采用了前人[20,25]的双分支范式来处理交叉模态数据(两篇BEVFusion的方法,MIT,PKU)。具体而言,将当前LiDAR点云和多视图图像馈送到两个独立的骨干中,形成高级特征表示。对于LiDAR流,输入点云 P ∈ R N × D P∈\mathbb R^{N×D} PRN×D通过体素化(体素化)转换为统一网格[49],再进行三维稀疏卷积(3D sparse convolution)处理[41],形成BEV空间 B L i D A R ∈ R X × Y × C B_{LiDAR}∈\mathbb R^{X×Y ×C} BLiDARRX×Y×C中的特征表示,其中 X X X Y Y Y C C C分别表示BEV网格的大小和特征维度。图像主干获取多视图图像数据,得到二维图像特征 I ∈ R N c × C × H × W I∈\mathbb R^{N_c×C×H×W} IRNc×C×H×W,其中 N c N_c Nc C C C H H H W W W分别表示摄像机个数、特征尺寸、图像高度和图像宽度。然后在接下来的空间融合阶段对提取的LiDAR和图像特征进行融合。

3.2 空间BEV特征融合

提取的激光雷达特征和图像特征分别传递了基本的几何信息和语义信息。为了进一步将这些特征整合到统一的BEV空间中,需要进行视图变换,将多个2D图像特征投影到相机BEV空间中。以前的方法[20,25]选择LSS[29]通过将2D特征提升到具有不同深度概率的3D空间来实现该任务。然而,缺乏可靠的深度监督通常会导致该模块的性能较差。相比之下,我们依靠预训练的LiDAR BEV相对准确的空间信息来获取相应的语义特征。这使得我们提出的LGVT能够有效地将2D图像特征投影到BEV空间中。

LSS的视图变换方法,通过相机内参为每个像素生成一条射线,对应每个预设的离散深度得到一个置信度。即对图像生成一个视锥。
在这里插入图片描述

激光雷达引导视图变压器模块(LGVT)

LGVT利用可变形的注意力模块,在LiDAR空间先验的引导下,将二维图像特征转化为BEV特征。图4显示了LGVT模块的架构。在第 I I I层,模块将前一层相机BEV特征 B c a m e r a i − 1 B^{i−1}_{camera} Bcamerai1和LiDAR BEV特征 B L i D A R B_{LiDAR} BLiDAR融合为查询特征 Q g u i d e d i Q^i_{guided} Qguidedi,然后与2D图像特征 I I I进行可变形交叉关注[51],更新相机BEV特征,LGVT模块可表述如下:
Q g u i d e d i = f ( B L i d D A R , B C i − 1 a m e r a ) , W h e r e    B C a m e r a i − 1 = { B C a m e r a i n i t , i = 1 B C a m e r a i − 1 , i > 1 B C a m e r a i = D e f o r m C r o s s A t t n ( Q g u i d e d i , I ) Q^i_{guided}=f(B_{LidDAR},B^{i-1}_Camera),\\ Where \space\space B^{i-1}_{Camera}= \begin{cases} B^{init}_{Camera}, &i=1\\ B^{i-1}_{Camera}, &i>1 \end{cases}\\ B^i_{Camera}=DeformCrossAttn(Q^i_{guided},I) Qguidedi=f(BLidDAR,BCi1

猜你喜欢

转载自blog.csdn.net/qq_37214693/article/details/130927689
今日推荐