BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation - 基于统一 BEV 表示的多任务多传感器融合（ICRA 2023）

摘要
1. 引言
2. 相关工作
3. 方法
4. 实验
- 4.1 3D目标检测
- 4.2 BEV地图分割
5. 分析
6. 结论
References

声明：此翻译仅为个人学习记录

文章信息

标题：BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation (ICRA 2023)

作者：Zhijian Liu*, Haotian Tang*, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han (* indicates equal contributions)

文章链接：https://arxiv.org/pdf/2205.13542.pdf

文章代码：https://github.com/mit-han-lab/bevfusion

Nvidia 参考：CUDA & TensorRT solution for BEVFusion inference
https://github.com/NVIDIA-AI-IOT/Lidar_AI_Solution

摘要

多传感器融合对于准确可靠的自动驾驶系统至关重要。最近的方法是基于点级融合：用相机特征增强激光雷达点云。然而，相机到激光雷达的投影丢弃了相机特征的语义密度，阻碍了这种方法的有效性，尤其是对于面向语义的任务（如3D场景分割）。在本文中，我们用BEVFusion打破了这一根深蒂固的惯例，BEVFusions是一种高效通用的多任务多传感器融合框架。它在共享鸟瞰图（BEV）表示空间中统一了多模态特征，很好地保留了几何和语义信息。为了实现这一点，我们通过优化的BEV池来诊断和消除视图转换中的关键效率瓶颈，将延迟减少了40倍以上。BEVFusion从根本上讲是任务无关的，并且无缝地支持不同的3D感知任务，几乎没有架构更改。它在nuScenes上建立了新的技术水平，在3D目标检测上实现了1.3%的mAP和NDS提高，在BEV地图分割上实现了13.6%的mIoU提高，计算成本降低了1.9倍。复制我们结果的代码可在https://github.com/mit-han-lab/bevfusion.

1. 引言

自动驾驶系统配备了多种传感器。例如，Waymo的自动驾驶汽车有29个摄像头、6个雷达和5个激光雷达。不同的传感器提供互补的信号：例如，相机捕捉丰富的语义信息，激光雷达提供准确的空间信息，而雷达提供即时速度估计。因此，多传感器融合对于准确可靠的感知具有重要意义。

来自不同传感器的数据以根本不同的方式表示：例如，相机在透视图中捕捉数据，而激光雷达在3D视图中捕捉数据。为了解决这种观点上的差异，我们必须找到一种适用于多任务多模态特征融合的统一表示。由于在2D感知方面取得了巨大成功，自然的想法是将激光雷达点云投影到相机上，并用2D CNNs处理RGB-D数据。然而，这种激光雷达到相机的投影引入了严重的几何失真（见图1a），这使得它在面向几何的任务（如3D目标识别）中的效果较差。

最近的传感器融合方法遵循另一个方向。他们用语义标签[54]、CNN特征[55，23]或2D图像中的虚拟点[68]来增强激光雷达点云，然后应用现有的基于激光雷达的检测器来预测3D边界框。尽管这些点级融合方法在大规模检测基准上表现出了显著的性能，但它们几乎不适用于面向语义的任务，如BEV地图分割[37，39，22，70]。这是因为相机到激光雷达的投影在语义上是有损耗的（见图1b）：对于典型的32束激光雷达扫描仪，只有5%的相机特征会与激光雷达点匹配，而所有其他特征都会被丢弃。对于更稀疏的激光雷达（或成像雷达）来说，这种密度差异将变得更加剧烈。

在这里插入图片描述

图1: BEVFusion在共享的BEV空间中统一了相机和激光雷达的特征，而不是将一种模态映射到另一种模态。它保留了相机的语义密度和激光雷达的几何结构。

在本文中，我们提出了BEVFusion，以在共享鸟瞰图（BEV）表示空间中统一多模态特征，用于任务不可知学习。我们保持了几何结构和语义密度（见图1c），并自然支持大多数3D感知任务（因为它们的输出空间可以在BEV中自然捕获）。在将所有特征转换为BEV时，我们发现了视图转换中主要的效率瓶颈：即，BEV池化操作单独占用了模型运行时间的80%以上。然后，我们提出了一个具有预计算和间隔缩减的专用内核来消除这一瓶颈，实现了超过40倍的加速。最后，我们应用全卷积BEV编码器来融合统一的BEV特征，并添加一些特定于任务的头来支持不同的目标任务。

BEVFusion在nuScenes基准上设置了最先进的新性能。在3D目标检测方面，它在所有解决方案中排名排行榜第一。BEVFusion在BEV地图分割方面展示了更显著的改进。它的mIoU比纯相机模型高6%，比纯激光雷达模型高13.6%，而现有的融合方法几乎不起作用。BEVFusion是高效的，以1.9倍的更低的计算成本提供了所有这些结果。

BEVFusion打破了长期以来的观点，即点级融合是多传感器融合的最佳解决方案。简洁也是它的主要优势。我们希望这项工作将为未来的传感器融合研究提供一个简单而有力的基线，并激励研究人员重新思考通用多任务多传感器融合的设计和范式。

2. 相关工作

基于激光雷达的3D感知。研究人员设计了单级3D目标检测器[72，21，65，73，66，71]，使用PointNets[41]或SparseConvNet[17]提取扁平点云特征，并在BEV空间中进行检测。后来，Yin等人[67]和其他[15，5，42，14，6，60]已经探索了无锚3D目标检测。另一个研究流[49，10，50，47，48，24]专注于两阶段目标检测，它在现有的一阶段目标检测器上添加了一个RCNN网络。还有专门用于3D语义分割的类U-Net模型[17，13，52，33，75]，这是离线高清地图构建的一项重要任务。

基于相机的3D感知。由于激光雷达传感器的高成本，研究人员在仅使用相机的3D感知方面花费了大量精力。FCOS3D[57]用额外的3D回归分支扩展了图像检测器[53]，该分支后来在深度建模方面得到了改进[58，4]。代替在透视图中执行目标检测，DETR3D[59]、PETR[30]和Graph DETR3D[11]设计了具有3D空间中的可学习目标查询的基于DETR[74，61]的检测头。受基于激光雷达的检测器设计的启发，另一种仅限相机的3D感知模型使用视图转换器将相机特征从透视图显式转换为鸟瞰图[37，46，45，39]。BEVDet[20]和M2BEV[63]有效地将LSS[39]和OFT[46]扩展到3D目标检测，在发布时实现了最先进的性能。CaDDN[43]为视图转换器添加了明确的深度估计监督。BEVDet4D[19]、BEVFormer[25]和PETRv2[31]在多相机3D目标检测中利用时间线索，实现了对单帧方法的显著改进。BEVFormer[25]、CVT[70]和Ego3RT[35]也研究了使用多头注意力来执行视图转换。

在这里插入图片描述

图2:BEVFusion从多模态输入中提取特征，并使用视图转换将其高效地转换为共享鸟瞰图（BEV）空间。它将统一的BEV特征与全卷积BEV编码器融合在一起，并支持具有特定任务头的不同任务。

多传感器融合。最近，多传感器融合引起了3D检测界越来越多的兴趣。现有的方法可以分为提案级和点级融合方法。MV3D[7]在3D中创建目标提案，并将提案投影到图像以提取RoI特征。F-PointNet[40]、F-ConvNet[62]和CenterFusion[36]都将图像提案提升到3D截头体中。最近，FUTR3D[8]和TransFusion[1]定义了3D空间中的目标查询，并将图像特征融合到这些提案中。提案级融合方法是以目标为中心的，不能简单地推广到BEV地图分割等其他任务。另一方面，点级融合方法通常将图像语义特征绘制到前景激光雷达点上，并对修饰的点云输入进行基于激光雷达的检测。因此，它们既以目标为中心，又以几何为中心。在所有这些方法中，PointPainting[54]、PointAugmenting[55]、MVP[68]、FusionPainting[64]、AutoAlign[12]和FocalSparseCNN[9]是（LiDAR）输入级装饰，而Deep Continuous Fusion[27]和DeepFusion[23]是特征级装饰。

多任务学习。多任务学习已经在计算机视觉领域得到了很好的研究。研究人员研究了联合执行目标检测和实例分割[44，3]，并将其扩展到姿态估计和人机交互[18，51，56，16]。包括M2BEV[63]、BEVFormer[25]和BEVerse[69]在内的一些并行工作在3D中联合执行目标检测和BEV分割。上述方法均未考虑多传感器融合。MMF[26]同时使用相机和激光雷达输入进行深度完成和目标检测，但仍然以目标为中心，不适用于BEV地图分割。

与现有的所有方法相比，BEVFusion在共享的BEV空间中进行传感器融合，并平等地对待前景和背景、几何和语义信息。BEVFusion是一个通用的多任务多传感器感知框架。

3. 方法

BEVFusion专注于多任务3D感知（即检测和分割）的多传感器融合（即多视图相机和激光雷达）。我们在图2中概述了我们的框架。给定不同的传感器输入，我们首先应用模态特定编码器来提取它们的特征。我们将多模态特征转换为统一的BEV表示，该表示保留了几何和语义信息。我们发现了视图转换的效率瓶颈，并通过预计算和间隔缩减来加速BEV池。然后，我们将基于卷积的BEV编码器应用于统一的BEV特征，以缓解不同特征之间的局部错位。最后，我们附加了一些特定于任务的头来支持不同的3D任务。

3.1 统一表述

不同的特征可以存在于不同的视图中。例如，相机特征在透视图中，而激光雷达/雷达特征通常在3D/鸟瞰图中。即使是相机特征，它们中的每一个都有不同的视角（即前、后、左、右）。这种视图差异使得特征融合变得困难，因为不同特征张量中的相同元素可能对应于完全不同的空间位置（在这种情况下，简单的元素特征融合将不起作用）。因此，找到一个共享的表示是至关重要的，这样（1）所有传感器特征都可以很容易地转换为它而不会丢失信息，（2）它适用于不同类型的任务。

在这里插入图片描述

图3：相机到BEV转换（a）是在统一BEV空间中执行传感器融合的关键步骤。然而，现有的实现速度非常慢，单场景最多可达到2秒。我们提供高效的BEV池（b），使用间隔减少和快速网格关联以及预计算，为视图转换模块（c、d）带来约40×加速。

到相机。在RGB-D数据的推动下，一个选择是将激光雷达点云投影到相机平面上，并渲染2.5D稀疏深度。然而，这种转换在几何上是无损的。深度图上的两个邻居在3D空间中可能彼此相距很远。这使得相机视图对于聚焦于目标/场景几何体（如3D目标检测）的任务有效性较低。

到激光雷达。最先进的传感器融合方法[54、68、23]将激光雷达点与其对应的相机特征（例如语义标签、CNN特征或虚拟点）进行装饰。然而，这种相机到激光雷达投影在语义上有损耗的。相机和激光雷达特征具有显著不同的密度，导致只有不到5%的相机特征与激光雷达点（用于32通道激光雷达扫描仪）匹配。放弃相机特征的语义密度严重损害了模型在语义导向任务（如BEV地图分割）上的性能。类似的不利条件也适用于潜在空间中最近的融合方法（例如，目标查询）[8，1]。

到鸟瞰图。我们采用鸟瞰图（BEV）作为融合的统一表示。这种视图对几乎所有感知任务都是友好的，因为输出空间也在BEV中。更重要的是，BEV的转换保持了几何结构（来自激光雷达特性）和语义密度（来自相机特性）。在一只手上，激光雷达到BEV投影使稀疏的激光雷达特征沿高度维度平坦，因此不会在图1A中产生几何失真。另一方面，相机到BEV投影将每个相机特征像素投射回3D空间中的光线（在下一节中详细介绍），这可能导致图1C中的密集BEV特征图，该图保留了相机的完整语义信息。

3.2 高效相机到BEV转换

相机到BEV的转换是微不足道的，因为与每个相机特征像素相关的深度固有模糊。遵循LSS[39]和BEVDET[20,19]，我们明确预测了每个像素的离散深度分布。然后，我们将每个特征像素分散到相机光线沿线的D个离散点中，并通过其对应的深度概率恢复相关特征（图3A）。这生成大小为NHW D的相机特征点云，其中N是相机数量，（H，W）是相机特征图大小。这样的3D特征点云沿着x、y轴进行量化，步长为r（例如，0.4m）。我们使用BEV池操作来聚合每个r×r BEV网格中的所有特征，并平整z轴上的特征。

虽然很简单，但BEV池出人意料地低效和缓慢，在RTX 3090 GPU上占用超过500ms（而我们模型的其余部分仅占用约100ms）。这是因为相机特征点云非常大：对于典型的工作负载*（N=6，（H，W）=（32，88），D=（60−1）/0.5=118。这对应于六个多视图相机，每个相机都与32×88相机特征图相关联（从256×704图像向下采样8×）。根据BEVDet[20]，深度离散为[1, 60]米，步长为0.5米。），每帧可能会产生大约200万个点，比激光雷达特征点云密度高出两个数量级。为了提高效率，我们建议通过预计算和间隔减少优化BEV池。

预计算。BEV池的第一步是将相机特征点云中的每个点与BEV网格相关联。与激光雷达点云不同，相机特征点云的坐标是固定的（只要相机的内在和外在保持相同，这通常是正确校准后的情况）。在此基础上，我们预先计算了每个点的3D坐标和BEV网格索引。我们还根据网格索引对每个点排序，并记录每个点的排名。在推理期间，我们只需要根据预先计算的排名重新排序所有特征点。这种缓存机制可以将网格关联的延迟从17ms降低到4ms。

间隔减少。网格关联后，同一BEV网格内的所有点将在张量表示中连续。BEV池的下一步是通过一些对称函数（例如，平均、最大和求和）聚合每个BEV网格中的特征。如图3b所示，现有实现[39]首先计算所有点的前缀和，然后减去在索引变化的边界处的值。然而，前缀和操作需要减少GPU上的树，并产生许多未使用的部分和（因为我们只需要边界上的值），这两个都是低效的。为了加速特征聚合，我们实现了一个专门的GPU内核，通过BEV网格直接并行化：我们为每个网格分配了一个GPU线程，计算其间隔和并返回结果。该内核消除了输出之间的依赖性（因此不需要多级树缩减），并避免将部分和写入DRAM，将特征聚合的延迟从500ms降低到2ms（图3C）。

Takeaways。使用我们优化的BEV池，相机到BEV的转换速度快40倍：延迟从500毫秒以上减少到12毫秒（仅占我们模型端到端运行时的10%），并在不同特征分辨率下扩展良好（图3D）。这是统一共享BEV表示中多模态传感器特性的关键启用程序。我们的两个并存的作品也识别了这种效率瓶颈在仅相机的3D检测中。它们通过假设均匀深度分布[63]或截断每个BEV网格内的点[20]近似视图变换器。相比之下，我们的技术在没有任何近似的情况下是准确的，但仍然更快。

3.3 完全卷积融合

将所有传感器特征转换为共享BEV表示后，我们可以通过元素运算符（如串联）轻松地将它们融合在一起。尽管在同一空间中，但由于视图变换器中的深度不准确，激光雷达BEV特征和相机BEV特征仍可能在一定程度上在空间上错位。为此，我们应用基于卷积的BEV编码器（具有一些残差块）来补偿这种局部失准。我们的方法可能受益于更准确的深度估计（例如，用真值深度监督视图转换器[43，38]），我们将其留给未来的工作。

3.4 多任务头

我们将多个特定任务的头应用于融合的BEV特征图。我们的方法适用于大多数3D感知任务。我们展示了两个例子：3D目标检测和BEV地图分割。

检测。我们使用特定类别的中心热图头来预测所有目标的中心位置，并使用一些回归头来估计目标的大小、旋转和速度。我们请读者参考以前的3D检测论文[1，67，68]以了解更多细节。

分割。不同的地图类别可能重叠（例如，人行横道是可驾驶空间的子集）。因此，我们将这个问题表述为多个二进制语义分割，每个类一个。我们遵循CVT[70]来训练具有标准焦点损失的分割头[29]。

4. 实验

我们评估了BEVFusion在3D目标检测和BEV地图分割方面的相机-激光雷达融合，涵盖了面向几何和语义的任务。我们的框架可以很容易地扩展到支持其他类型的传感器（如雷达和基于事件的相机）和其他3D感知任务（如3D目标跟踪和运动预测）。

表1: BEVFusion在 without bells and whistles的nuScenes（val和test）上实现了最先进的3D目标检测性能。它打破了在激光雷达点云上装饰相机特征的惯例，以1.5-2倍更低的计算成本提供了至少1.3%的高mAP和NDS。（*：我们的重新实施；†：w/ test-time augmentation（TTA）；‡：w/ model ensemble and TTA）

在这里插入图片描述

表2: BEVFusion在nuScenes（val）上的BEV地图分割方面比最先进的多传感器融合方法好13.6%，在不同类别上有一致的改进。

在这里插入图片描述

模型。我们使用Swin-T[32]作为我们的图像主干，使用VoxelNet[65]作为我们的激光雷达主干。我们应用FPN[28]融合多尺度相机特征，以产生1/8输入大小的特征图。我们将相机图像下采样到256×704，并用0.075m（用于检测）和0.1m（用于分割）对激光雷达点云进行体素化。由于检测和分割任务需要具有不同空间范围和大小的BEV特征图，我们在每个任务特定的头部之前应用具有双线性插值的网格采样，以在不同的BEV特性图之间显式变换。

训练。与冻结相机编码器的现有方法[54，55，1]不同，我们以端到端的方式训练整个模型。我们应用图像和激光雷达数据增强来防止过拟合。使用AdamW[34]进行优化，权重衰减为10−2。

数据集。我们在nuScenes[2]上评估了我们的方法，nuScenes[2]是根据CC BY-NC-SA 4.0许可证发布的大型户外数据集。它有各种各样的注释来支持各种任务（如3D目标检测/跟踪和BEV地图分割）。40157个注释样本中的每一个都包含六个具有360度视场的单目相机图像和32束激光雷达扫描。

在这里插入图片描述

图4: BEVFusion在3D目标检测和BEV地图分割方面的定性结果。它可以准确地识别远处和较小的目标（上图），并解析拥挤的夜景（下图）。

4.1 3D目标检测

我们首先在以几何为中心的3D目标检测基准上进行了实验，其中BEVFusion以较低的计算成本和测量的延迟实现了卓越的性能。

设置。我们使用10个前景类的平均精度（mAP）和nuScenes检测分数（NDS）作为我们的检测指标。我们还测量了RTX3090 GPU上所有开源方法的单个推理#MAC和延迟。我们使用一个单一的模型，对验证和测试结果没有任何测试时间的增加。

结果。如表1所示，BEVFusion在nuScenes检测基准上实现了最先进的结果，在桌面GPU上具有接近实时（8.4FPS）的推理速度。与TransFusion[1]相比，BEVFusion在测试分割mAP和NDS方面实现了1.3%的改进，同时显著减少了1.9倍的MAC和1.3倍的测量延迟。与代表性的点级融合方法PointPainting[54]和MVP[68]相比，BEVFusion也具有优势，在测试集上加速1.6倍，减少1.5倍的MAC，提高3.8%的mAP。我们认为，BEVFusion的效率增益来自于我们选择BEV空间作为共享融合空间的事实，该空间充分利用了所有相机特征，而不仅仅是5%的稀疏集。因此，BEVFusion可以用更小的MAC实现相同的性能。结合第3.2节中的高效BEV池运算符，BEVFusion将MAC的减少转化为测量的加速。

4.2 BEV地图分割

在以语义为中心的BEV地图分割任务中，我们进一步将BEVFusion与最先进的3D感知模型进行了比较，其中BEVFusions实现了更大的性能提升。

设置。我们报告了6个背景类别（可驾驶空间、人行横道、人行道、停车线、停车区和车道分隔带）的联合交叉口（IoU），并将类别平均值IoU作为我们的评估指标。由于不同的类别可能有重叠（例如，停车场也是可驾驶的），我们分别评估每个类别的二进制分割性能，并在不同的阈值上选择最高的IoU[70]。对于每一帧，我们跟随[39，70，63，25]一样只在ego车周围的[-50m，50m]×[-50m，50m]区域进行评估。在BEVFusion中，我们使用一个单独的模型来联合执行所有类的二进制分割，而不是遵循传统的方法来为每个类训练单独的模型。这导致6倍的推理和训练速度。我们复现了所有开源竞争方法的结果。

结果。我们在表2中报告了BEV地图分割结果。与作为面向几何的任务的3D目标检测不同，地图分割是面向语义的。因此，我们的纯相机BEVFusion模型比纯激光雷达基线高8-13%。这一观察结果与表1中的结果完全相反，在表1中，最先进的纯相机3D检测器比纯激光雷达检测器的性能高出近20mAP。我们的纯相机模型将现有单目BEV地图分割方法的性能提高了至少12%。在多模态设置中，我们将单眼BEVFusion的性能进一步提高了6 mIoU，并比最先进的传感器融合方法提高了>13%[54，68]。这是因为这两种基线方法都是以目标为中心和面向几何的。PointPainting[54]仅装饰前景激光雷达点，MVP仅加密前景3D目标。这两种方法都无助于分割地图组件。更糟糕的是，这两种方法都认为激光雷达应该是传感器融合中更有效的模式，根据我们在表2中的观察结果，这是不正确的。

表3: BEVFusion在不同的照明和天气条件下是稳健的，在具有挑战性的雨天和夜间场景下显著提高了单模态基线（灰色标记）的性能。（*：BEVDet Tiny和LSS的变体，具有更大的主干和视图转换器）

在这里插入图片描述

图5: BEVFusion在不同的激光雷达稀疏度、目标大小和目标与自我车的距离下，特别是在更具挑战性的设置下（即，更稀疏的点云、小/远的目标），始终优于最先进的单模态和多模态检测器。

5. 分析

我们对不同情况下的单模态模型和最先进的多模态模型上的BEVFusion进行了深入分析。

天气和照明。我们在表3中系统地分析了BEVFusion在不同天气和光照条件下的性能。由于传感器噪声较大，在雨天检测目标对仅使用激光雷达的模型来说是一项挑战。得益于相机传感器在不同天气下的稳健性，BEVFusion将CenterPoint提高了10.7mAP，缩小了晴天和雨天场景之间的性能差距。较差的光照条件对检测和分割模型来说都是具有挑战性的。对于检测，与BEVFusion相比，MVP实现了更小的改进，因为它需要精确的2D实例分割来生成多模态虚拟点（MVP）。在黑暗或曝光过度的场景中（例如，图4的第二个场景），这可能非常具有挑战性。对于分割，即使仅相机的BEVFusion在表2中的整个数据集上大大优于CenterPoint，其夜间性能也要差得多。我们的BEVFusion显著提高了12.8 mIoU的性能，这甚至比白天的改进还要大，证明了当相机传感器出现故障时，几何线索的重要性。

尺寸和距离。我们还分析了在不同目标尺寸和距离下的性能。从图5a中可以看出，BEVFusion在小型和大型目标上都比仅使用激光雷达的同类目标实现了一致的改进，而MVP在大于4米的目标上只有微不足道的改进。这是因为较大的目标通常密度更大，从这些增强的多模态虚拟点（MVP）中获益更少。此外，BEVFusion为较小目标（图5a）和较远目标（图5b）的仅激光雷达模型带来了更大的改进，这两个目标都没有被激光雷达点覆盖，因此可以从密集的相机信息中受益更多。

表4: 验证我们设计选择的消融实验。默认设置以灰色标记。

在这里插入图片描述

表5：联合检测和分割训练（训练了10个时期）。

在这里插入图片描述

稀疏激光雷达。我们在图5c中展示了仅激光雷达检测器CenterPoint[67]、多模态检测器MVP[68]和我们的BEVFusion在不同激光雷达稀疏度下的性能。BEVFusion在所有稀疏度水平下都始终优于MVP，减少了1.6×MAC，并在1束激光雷达场景中实现了12%的改进。MVP对输入点云进行装饰，并将CenterPoint直接应用于绘制和加密的激光雷达输入。因此，它自然需要仅使用激光雷达的中心点检测器才能表现良好，这在稀疏激光雷达设置下是无效的（图5c中的35.8 NDS和1束输入）。相反，BEVFusion在共享的BEV空间中融合了多感官信息，因此不假设只有强大的激光雷达检测器。

多任务学习。本文重点讨论了不同任务分别训练的设置。在这里，我们提出了一个联合3D检测和分割训练的试点研究。我们将不同任务的损失重新缩放到相同的大小，并为每个任务应用单独的BEV编码器，以提供学习更多特定任务特征的能力。从表5可以看出，联合训练不同的任务对每个单独任务的表现都有负面影响，这被广泛称为“负迁移”。分离BEV编码器部分缓解了这个问题。一个更复杂的训练计划可以进一步缩小这一差距，我们将其留给未来的工作。

消融研究。我们在表4中介绍了消融研究，以证明我们的设计选择是合理的，其中我们对检测器使用了较短的训练计划。在表4a中，我们观察到BEVFusion对仅LiDAR的检测（+8.8%）和仅相机的分割（+6.1%）都有很大的改进。这表明共享BEV空间中的传感器融合对几何和语义导向的任务都是有益的。表4b、表4c和表4d表明，BEVFusion的检测变体在体素和图像分辨率方面都能很好地扩展，而当图像分辨率增长到256×704以上时，BEV分割性能趋于平稳。我们还在表4d中注意到，使用1/8输入分辨率的FPN特征为检测和分割提供了最佳性能，并且进一步增加计算是没有帮助的。表4f表明，我们的BEVFusion是通用的，适用于不同的主干。同样值得注意的是，在现有的多传感器3D目标检测研究中，冻结图像主干的常见做法[54，55，1]甚至没有充分利用相机特征提取器的检测潜力，并导致BEV分割的性能大幅下降（10%）。我们在表4e中进一步证明，图像和激光雷达输入上的增强有助于提高BEVFusion的性能。

6. 结论

我们提出了BEVFusion，一种用于多任务多传感器3D感知的高效通用框架。BEVFusion将相机和激光雷达的特征统一在一个共享的BEV空间中，该空间充分保留了几何和语义信息。为了实现这一点，我们将camera-to-BEV的转换速度加快了40倍以上。BEVFusion打破了长期以来的普遍做法，即点级融合是多传感器感知系统的黄金选择。BEVFusion在3D检测和BEV地图分割任务上都实现了最先进的性能，与现有解决方案相比，计算量减少了1.5-1.9倍，测量速度提高了1.3-1.6倍。我们希望BEVFusion可以作为一个简单但强大的基线，启发未来多任务多传感器融合的研究。

局限性。目前，BEVFusion在联合多任务训练中仍然存在性能下降的问题，这尚未释放出在多任务环境中进行更大推理加速的潜力。更准确的深度估计[43，38]也是本文中未充分探索的方向，这可能会进一步提高BEVFusion的性能。

社会影响。高效准确的多传感器感知对自动驾驶汽车的安全至关重要。BEVFusion将最先进的多传感器融合模型的计算成本降低了一半，并在小而遥远的物体以及雨天和夜间条件下实现了大幅的精度提高。它为安全可靠的自动驾驶铺平了道路。

致谢。我们要感谢Xuanyao Chen和Brady Zhou在检测和分割评估方面的指导，以及 Yingfei Liu和Tiancai Wang的有益讨论。这项工作得到了国家科学基金会、现代汽车、高通、英伟达和苹果的支持。Zhijian Liu获得了高通公司创新奖学金的部分资助。

References

[1] Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, and Chiew-Lan Tai. TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers. In CVPR, 2022. 3, 4, 5, 6, 7, 9
[2] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuScenes: A Multimodal Dataset for Autonomous Driving. In CVPR, 2020. 6
[3] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: Delving into High Quality Object Detection. In CVPR, 2018. 3
[4] Hansheng Chen, Pichao Wang, Fan Wang, Wei Tian, Lu Xiong, and Hao Li. EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation. In CVPR, 2022. 2
[5] Qi Chen, Lin Sun, Zhixin Wang, Kui Jia, and Alan Yuille. Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots. In ECCV, 2020. 2
[6] Qi Chen, Sourabh Vora, and Oscar Beijbom. PolarStream: Streaming Lidar Object Detection and Segmentation with Polar Pillars. In NeurIPS, 2021. 2
[7] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia. Multi-View 3D Object Detection Network for Autonomous Driving. In CVPR, 2017. 3
[8] Xuanyao Chen, Tianyuan Zhang, Yue Wang, Yilun Wang, and Hang Zhao. FUTR3D: A Unified Sensor Fusion Framework for 3D Detection. arXiv, 2022. 3, 4, 6
[9] Yukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, and Jiaya Jia. Focal Sparse Convolutional Networks for 3D Object Detection. In CVPR, 2022. 3
[10] Yilun Chen, Shu Liu, Xiaoyong Shen, and Jiaya Jia. Fast Point R-CNN. In ICCV, 2019. 2
[11] Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinghong Jiang, and Feng Zhao. Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection. In ACM-MM, 2022. 2
[12] Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinghong Jiang, Feng Zhao, Bolei Zhou, and Hang Zhao. AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection. arXiv, 2022. 3, 6
[13] Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. In CVPR, 2019. 2
[14] Lue Fan, Xuan Xiong, Feng Wang, Naiyan Wang, and Zhaoxiang Zhang. RangeDet: In Defense of Range View for LiDAR-Based 3D Object Detection. In ICCV, 2021. 2
[15] Runzhou Ge, Zhuangzhuang Ding, Yihan Hu, Wenxin Shao, Li Huang, Kun Li, and Qiang Liu. 1st Place Solutions to the Real-time 3D Detection and the Most Efficient Model of the Waymo Open Dataset Challenge 2021. In CVPRW, 2021. 2
[16] Georgia Gkioxari, Ross Girshick, Piotr Dollár, and Kaiming He. Detecting and Recognizing Human-Object Interactions. In CVPR, 2018. 3
[17] Benjamin Graham, Martin Engelcke, and Laurens van der Maaten. 3D Semantic Segmentation With Submanifold Sparse Convolutional Networks. In CVPR, 2018. 2
[18] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask R-CNN. In ICCV, 2017. 3
[19] Junjie Huang and Guan Huang. BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection. arXiv, 2022. 2, 4, 6
[20] Junjie Huang, Guan Huang, Zheng Zhu, Yun Ye, and Dalong Du. BEVDet: High-performance Multicamera 3D Object Detection in Bird-Eye-View. arXiv, 2021. 2, 4, 5, 6
[21] Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, and Jiong Yang. PointPillars: Fast Encoders for Object Detection from Point Clouds. In CVPR, 2019. 2, 6
[22] Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. HDMapNet: An Online HD Map Construction and Evaluation Framework. In ICRA, 2022. 2
[23] Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, et al. DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection. In CVPR, 2022. 1, 3, 4
[24] Zhichao Li, Feng Wang, and Naiyan Wang. LiDAR R-CNN: An Efficient and Universal 3D Object
Detector. CVPR, 2021. 2
[25] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai. BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv, 2022. 2, 3, 6, 7
[26] Ming Liang, Bin Yang, Yun Chen, Rui Hu, and Raquel Urtasun. Multi-Task Multi-Sensor Fusion for 3D Object Detection. In CVPR, 2019. 3
[27] Ming Liang, Bin Yang, Shenlong Wang, and Raquel Urtasun. Deep Continuous Fusion for Multi-Sensor 3D Object Detection. In ECCV, 2018. 3
[28] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR, 2017. 6
[29] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal Loss for Dense Object Detection. In ICCV, 2017. 5
[30] Yingfei Liu, Tiancai Wang, Xiangyu Zhang, and Jian Sun. PETR: Position Embedding Transformation for Multi-View 3D Object Detection. arXiv, 2022. 2
[31] Yingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Qi Gao, Tiancai Wang, Xiangyu Zhang, and Jian Sun.
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images. arXiv, 2022. 2
[32] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In ICCV, 2021. 6
[33] Zhijian Liu, Haotian Tang, Shengyu Zhao, Kevin Shao, and Song Han. PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution. TPAMI, 2021. 2
[34] Ilya Loshchilov and Frank Hutter. Decoupled Weight Decay Regularization. In ICLR, 2019. 6
[35] Jiachen Lu, Zheyuan Zhou, Xiatian Zhu, Hang Xu, and Li Zhang. Learning Ego 3D Representation as Ray Tracing. arXiv, 2022. 3
[36] Ramin Nabati and Hairong Qi. CenterFusion: Center-Based Radar and Camera Fusion for 3D Object Detection. In WACV, 2021. 3
[37] Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. Cross-View Semantic Segmentation for Sensing Surroundings. RA-L, 2020. 2
[38] Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, and Adrien Gaidon. Is Pseudo-Lidar needed for Monocular 3D Object detection? In ICCV, 2021. 5, 10
[39] Jonah Philion and Sanja Fidler. Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D. In ECCV, 2020. 2, 4, 5, 6, 7
[40] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J Guibas. Frustum PointNets for 3D Object Detection from RGB-D Data. In CVPR, 2018. 3
[41] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. In NeurIPS, 2017. 2
[42] Charles R Qi, Yin Zhou, Mahyar Najibi, Pei Sun, Khoa Vo, Boyang Deng, and Dragomir Anguelov. Offboard 3D Object Detection from Point Cloud Sequences. In CVPR, 2021. 2
[43] Cody Reading, Ali Harakeh, Julia Chae, and Steven L. Waslander. Categorical depth distributionnetwork for monocular 3d object detection. In CVPR, 2021. 2, 5, 10
[44] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NeurIPS, 2015. 3
[45] Thomas Roddick and Roberto Cipolla. Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks. In CVPR, 2020. 2
[46] Thomas Roddick, Alex Kendall, and Roberto Cipolla. Orthographic Feature Transform for Monocular 3D Object Detection. In BMVC, 2019. 2, 6
[47] Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. In CVPR, 2020. 2
[48] Shaoshuai Shi, Li Jiang, Jiajun Deng, Zhe Wang, Chaoxu Guo, Jinaping Shi, Xiaogang Wang, and Hongsheng Li. PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection. arXiv, 2021. 2
[49] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud. In CVPR, 2019. 2
[50] Shaoshuai Shi, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. From Points to Parts: 3D Object Detection from Point Cloud with Part-aware and Part-aggregation Network. TPAMI, 2020. 2
[51] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep High-Resolution Representation Learning for Human Pose Estimation. In CVPR, 2019. 3
[52] Haotian Tang, Zhijian Liu, Shengyu Zhao, Yujun Lin, Ji Lin, Hanrui Wang, and Song Han. Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution. In ECCV, 2020. 2
[53] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: Fully Convolutional One-Stage Object Detection. In ICCV, 2019. 2
[54] Sourabh Vora, Alex H Lang, Bassam Helou, and Oscar Beijbom. PointPainting: Sequential Fusion for 3D Object Detection. In CVPR, 2020. 1, 3, 4, 6, 7, 8, 9
[55] Chunwei Wang, Chao Ma, Ming Zhu, and Xiaokang Yang. PointAugmenting: Cross-Modal Augmentation for 3D Object Detection. In CVPR, 2021. 1, 3, 6, 9
[56] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, Wenyu Liu, and Bin Xiao. Deep high-resolution representation learning for visual recognition. TPAMI, 2019. 3
[57] Tai Wang, Xinge Zhu, Jiangmiao Pang, and Dahua Lin. FCOS3D: Fully Convolutional One-Stage
Monocular 3D Object Detection. In ICCVW, 2021. 2
[58] Tai Wang, Xinge Zhu, Jiangmiao Pang, and Dahua Lin. Probabilistic and Geometric Depth: Detecting Objects in Perspective. In CoRL, 2021. 2
[59] Yue Wang, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin M. Solomon. DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries. In CoRL, 2021. 2
[60] Yue Wang and Justin M. Solomon. Object DGCNN: 3D Object Detection using Dynamic Graphs. In NeurIPS, 2021. 2
[61] Yingming Wang, Xiangyu Zhang, Tong Yang, and Jian Sun. Anchor DETR: Query Design for TransformerBased Detector. In AAAI, 2022. 2
[62] Zhixin Wang and Kui Jia. Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection. In IROS, 2019. 3
[63] Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Luo, and Jose M Alvarez. M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation. arXiv, 2022. 2, 3, 5, 6, 7
[64] Shaoqing Xu, Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou, and Liangjun Zhang. FusionPainting:
Multimodal Fusion with Adaptive Attention for 3D Object Detection. In ITSC, 2021. 3, 6
[65] Yan Yan, Yuxing Mao, and Bo Li. SECOND: Sparsely Embedded Convolutional Detection. Sensors, 2018. 2, 6
[66] Zetong Yang, Yanan Sun, Shu Liu, and Jiaya Jia. 3DSSD: Point-Based 3D Single Stage Object Detector. CVPR, 2020. 2
[67] Tianwei Yin, Xingyi Zhou, and Philipp Krähenbühl. Center-Based 3D Object Detection and Tracking. In CVPR, 2021. 2, 5, 6, 9
[68] Tianwei Yin, Xingyi Zhou, and Philipp Krähenbühl. Multimodal Virtual Point 3D Detection. In NeurIPS, 2021. 1, 3, 4, 5, 6, 7, 8, 9
[69] Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, and Jiwen Lu. BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving. arXiv, 2022. 3
[70] Brady Zhou and Philipp Krähenbühl. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. In CVPR, 2022. 2, 3, 5, 6, 7
[71] Yin Zhou, Pei Sun, Yu Zhang, Dragomir Anguelov, Jiyang Gao, Tom Ouyang, James Guo, Jiquan Ngiam, and Vijay Vasudevan. End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds. CoRL, 2019. 2
[72] Yin Zhou and Oncel Tuzel. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. In CVPR, 2018. 2
[73] Benjin Zhu, Zhengkai Jiang, Xiangxin Zhou, Zeming Li, and Gang Yu. Class-Balanced Grouping and Sampling for Point Cloud 3D Object Detection. arXiv, 2019. 2
[74] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable DETR: Deformable Transformers for End-to-End Object Detection. In ICLR, 2021. 2
[75] Xinge Zhu, Hui Zhou, Tai Wang, Fangzhou Hong, Yuexin Ma, Wei Li, Hongsheng Li, and Dahua Lin. Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation. In CVPR, 2021. 2

多模态融合 - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Repre ... (ICRA 2023)

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation - 基于统一 BEV 表示的多任务多传感器融合（ICRA 2023）

摘要

1. 引言

2. 相关工作

3. 方法

3.1 统一表述

3.2 高效相机到BEV转换

3.3 完全卷积融合

3.4 多任务头

4. 实验

4.1 3D目标检测

4.2 BEV地图分割

5. 分析

6. 结论

References

猜你喜欢