SOTA!Bi-LRFusion:用于3D检测的双向激光雷达雷达融合

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到Garfield来分享CVPR 2023最新的激光雷达-雷达融合算法Bi-LRFusion,Garfield也是我们的签约作者,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【多传感器融合】技术交流群  

自动驾驶之心原创 · 作者 | Garfield

编辑 | 自动驾驶之心

1. 论文信息

题目:Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object Detection

作者:Yingjie Wang, Jiajun Deng, Yao Li, Jinshui Hu, Cong Liu, Yu Zhang, Jianmin Ji, Wanli Ouyang, Yanyong Zhang

链接:https://arxiv.org/pdf/2306.01438.pdf

代码:https://github.com/JessieW0806/Bi-LRFusion

2. 引言

892020af9654a61d0c568464d61716ed.png

通过引入雷达数据来改进三维动态物体检测的效果在不同高度的物体中并不一致,即像卡车、公共汽车和拖车等较高的物体并没有获得太多性能提升。需要注意的是,所有高度值都已转换为LiDAR坐标系。

由于其能够提供准确的位置测量,LiDAR一直被认为是大多数自动驾驶车辆(AV)感知子系统中的主要传感器。然而,除了物体位置之外,AV还急需估算运动状态信息(如速度),尤其是对于动态物体。这种信息无法由LiDAR传感器测量,因为它们对运动不敏感。因此,毫米波雷达(本文中称为雷达)传感器被用来推断物体的相对径向速度,因为它们能够基于多普勒效应来实现这一点。此外,车载雷达通常比LiDAR具有更长的探测范围,这在高速公路和快速路上特别有用。

在探索结合LiDAR和雷达数据以改进三维动态物体检测的过程中,现有的方法遵循了融合的常见机制,如图1(a)所示。具体来说,这些方法直接利用雷达数据/特征来增强以LiDAR为中心的检测网络,而不是首先提高前者的特征表示质量。

然而,独立提取的雷达特征并不足以用于改进LiDAR特征,因为雷达数据非常稀疏且缺乏高度信息,这一缺陷是由于当今的雷达技术,随着技术的快速发展,例如新一代4D雷达传感器,这种情况可能会发生改变。具体来说,以nuScenes数据集中的数据为例,32束LiDAR传感器产生约30,000个点,而雷达传感器仅对同一场景捕获约200个点。经过局部操作处理后,雷达鸟瞰图特征几乎无法获得有效的局部信息(例如,当非空雷达鸟瞰图像素被卷积核卷积时,其邻居很可能为空)。此外,车载雷达天线通常是水平排列的,因此缺少垂直方向上的高度信息。在先前的工作中,雷达点的高度值被简单地设置为自我雷达传感器的高度。因此,当从雷达特征中提取特征以增强LiDAR特征时,雷达的有问题的高度信息导致了不同高度物体的不稳定性改进。对比之前的方法,例如代表性方法RadarNet在高物体的检测性能方面存在不足,甚至在融合雷达数据后,卡车类别的检测性能下降了的AP。

为了更好地利用LiDAR和雷达融合的优势,我们认为在融合之前雷达特征需要更加强大。因此,我们首先通过利用LiDAR数据来丰富雷达特征,然后将丰富的雷达特征集成到LiDAR处理分支中以进行更有效的融合。如图所示,我们将此方案称为双向融合。在本文中,我们介绍了一种名为\Name的框架来实现这一目标。具体而言,Bi-LRFusion首先针对每个模态单独对BEV特征进行编码。接下来,它采用基于查询的LiDAR到雷达(L2R)高度特征融合和基于查询的L2R BEV特征融合,其中我们查询并分组接近雷达特征图上每个非空格网单元位置的LiDAR点和LiDAR BEV特征。聚合分组的LiDAR原始点以形成伪雷达高度特征,并聚合分组的LiDAR BEV特征以生成伪雷达BEV特征。生成的伪雷达高度和BEV特征通过连接与雷达BEV特征融合。在丰富雷达特征之后,Bi-LRFusion在统一的BEV表示中执行雷达到LiDAR(R2L)融合。最后,应用由BEV骨干网络和检测头组成的BEV检测网络以输出三维物体检测结果。

我们通过在nuScenes和Oxford Radar RobotCar(ORR)数据集上评估该方法,验证了双向LiDAR-Radar融合的优点。在nuScenes数据集上,相对于以LiDAR为中心的基准CenterPoint,并在汽车和摩托车方面在AP方面显著优于最强的对手RadarNet,绝对提高了2.0%和6.3%。此外,Bi-LRFusion在具有不同雷达数据格式的ORR数据集上具有很好的泛化性能,在车辆检测方面提高了1.3%的AP。

3. 方法

73efd1c1867f27288ae2075b21743e96.png

这项工作提出了一种双向LiDAR-Radar融合框架Bi-LRFusion,用于3D动态物体检测。首先,将输入的LiDAR和雷达点分别输入到兄弟LiDAR特征流和雷达特征流中,生成它们的BEV特征。接下来,进行LiDAR到雷达(L2R)融合,以增强雷达特征。具体而言,对于雷达特征图上的每个有效(即非空)格网单元,查询并分组接近雷达特征图上每个非空格网单元位置的LiDAR数据(包括原始点和BEV特征),以获得更详细的雷达特征。通过两个基于查询的特征融合块,将LiDAR数据的知识转移给雷达特征,从而得到富化的雷达特征。然后,在统一的BEV表示中执行雷达到LiDAR(R2L)融合,将富化的雷达特征与LiDAR特征集成。最后,由BEV骨干网络和检测头组成的BEV检测网络输出3D检测结果。

3a16b01f37ed1745d8d183657171849a.png
3.1 Modality-Specific Feature Encoding

这部分包括两个方面LiDAR Feature Encoding和Radar Feature Encoding。对于LiDAR特征编码,首先将LiDAR点划分为3D正则网格,使用多层感知机(MLP)和最大池化对每个网格的特征进行编码,生成体素特征。然后,使用由3D稀疏卷积层和3D子流形卷积层组成的3D体素骨干网络提取LiDAR特征。最后,将输出的特征沿着轴堆叠,生成一个LiDAR BEV特征图。对于Radar特征编码,利用pillar表示将Radar数据直接转换为鸟瞰图中的伪图像,再通过pillar特征网络提取Radar特征,生成一个Radar BEV特征图。

3.2 LiDAR-to-Radar Fusion
740dc03d751076b2091a3eaa416d77b6.png

Query-based L2R Height Feature Fusion(QHF)和Query-based L2R BEV Feature Fusion(QBF)都是基于查询机制的特征融合方法,下面将分别介绍它们的具体操作流程和相关公式。

QHF的核心创新在于高度特征查询机制。给定雷达BEV特征图上的第个有效网格单元,我们首先将其从BEV平面上“抬升”到3D空间中,形成一个高度为的立柱。然后,我们将立柱均匀地分成个分段,并在每个分段的中心分配一个查询点。具体而言,我们将雷达BEV特征图的网格大小表示为,为了避免重叠,我们设置球形查询的半径为,将分段数设置为。对于图4中的第个分段中的查询点,其坐标来自于给定网格单元的中心点,可以通过网格索引、网格大小以及雷达点的边界计算得到。进一步地,查询点的高度值计算如下:

其中,是所有LiDAR点中最小的高度值。

在建立了查询点之后,我们应用球形查询和PointNet模块来聚合来自分组LiDAR点的本地高度特征。聚合的计算可以表示为:

其中,表示第个分组LiDAR点,是球形查询中的分组点数,表示一个MLP,是最大池化操作。在获取了每个分段的本地高度特征之后,我们将它们拼接在一起,并将拼接的特征输入到一个MLP中,使输出通道的维度与雷达BEV特征图相同。最终,由QHF产生的第个雷达特征图网格单元的输出伪高度特征计算如下:

QBF的核心创新在于局部BEV特征查询机制。首先,我们将LiDAR 3D特征合并到BEV网格平面上,形成一组非空LiDAR网格。对于雷达BEV特征图上的第个非空网格单元,我们查询和分组距离该网格单元较近的LiDAR网格特征。具体而言,我们采用曼哈顿距离度量,并在BEV平面上的特定距离阈值内,采样最多个非空LiDAR网格。两个LiDAR网格和之间的曼哈顿距离可以计算如下:

对于第个雷达BEV网格单元,我们将所有距离其不超过的LiDAR网格分成组,每组至多包含个LiDAR网格。然后,我们对每个LiDAR网格组应用一个PointNet模块来聚合它们的本地BEV特征。具体而言,对于第个LiDAR网格组,其本地BEV特征聚合计算如下:

其中,是第个LiDAR网格组,表示一个MLP,是最大池化操作。在获取了每个LiDAR网格组的本地BEV特征之后,我们将它们拼接在一起,并将拼接的特征输入到一个MLP中,使输出通道的维度与雷达BEV特征图相同。最终,由QBF产生的第个雷达特征图网格单元的输出伪BEV特征计算如下:

注:其中的符号和参数含义如下:

  • :第个雷达特征图网格单元的输出伪高度特征。

  • :第个雷达特征图网格单元的输出伪BEV特征。

  • :立柱的高度。

  • :立柱被分成的分段数。

  • :雷达BEV特征图上的网格大小。

  • :QHF中的第个分段。

  • :QHF中第个分段的本地高度特征。

  • :QBF中采样的最多LiDAR网格数。

  • :QBF中每个LiDAR网格组至多包含的LiDAR网格数。

  • :QBF中查询距离阈值。

  • :LiDAR网格索引。

  • :QBF中第个LiDAR网格组。

3.3 Radar-to-LiDAR Fusion

在使用伪高度特征和伪BEV特征丰富雷达BEV特征后,我们获得了具有96个通道的增强雷达BEV特征。在这一步中,我们将增强的雷达BEV特征与基于LiDAR的3D检测流程进行融合,以融合有价值的线索,如速度信息。具体而言,我们按通道方式连接两个BEV特征。在将其传递到BEV检测网络之前,我们还应用一个基于卷积的BEV编码器来帮助抑制多模态BEV特征之间的错位效应。BEV编码器通过三个2D卷积块将融合的BEV特征调整为512。

3.4 BEV Detection Network

最后,将融合后的LiDAR和雷达BEV特征输入到BEV检测网络中以输出结果。BEV检测网络由BEV网络和检测头组成。BEV网络由几个2D卷积块组成,生成中心特征并传递到检测头。因此,我们使用一个类别特定的中心热图头来预测所有动态物体的中心位置,并使用一些回归头根据中心特征估计物体的大小、旋转和速度。我们将所有热图损失和回归损失合并为一个共同的目标,并按照基线CenterPoint一起优化它们。

4. 实验

cfcd4121fc4e23ab8a2c4dae5b550b9b.png

该表是比较不同方法在nuScenes验证集上的表现。在这个表格中,mAVE和mAP分别代表平均视锥体误差和平均精度,AP则代表平均精度。该表格中列出的方法有PointPillars、SECOND、CenterPoint、RVF-Net和RadarNet。这些方法使用的模态包括激光雷达(L)和毫米波雷达(R),有些方法使用两种模态的组合(L+R)。Group 1和Group 2是两个高度组,用于研究不同高度的物体对检测算法的影响。D.C.代表不关心的类别,即行人。其中,RadarNet表示基于CenterPoint的复现版本。RadarNet和RadarNet使用了增强雷达BEV特征的方法,而其他方法没有使用。在所有指标中,该研究提出的方法(DA-3D)取得了最佳表现,平均视锥体误差和平均精度均优于其他方法。根据上述表格,我们可以看出,该研究提出的DA-3D方法在nuScenes验证集上取得了很好的表现,平均视锥体误差和平均精度分别为25.0和62.0,优于其他方法。在AP指标方面,DA-3D方法在所有类别中都取得了最佳结果,特别是在Group 2中的Bus和Trailer类别,其AP分别为67.9和38.4,比其他方法都要高。这表明DA-3D方法在处理不同高度物体时具有优势。此外,RadarNet方法也取得了不错的结果,其平均视锥体误差和平均精度分别为26.2和60.4,比原始RadarNet方法要好。相较于其他方法,DA-3D方法和RadarNet方法的AP分数都相对更平衡,这表明它们在不同类别的物体检测方面都取得了比较好的结果。然而,需要注意的是,这些结果只是在nuScenes验证集上的表现,实际应用中还需要考虑其他因素,如数据分布、传感器精度等。

8434b23237e157818101d75420150543.png

根据上述表格,我们可以看出,该研究比较了LiDAR-only CenterPoint方法和该研究提出的方法在不同速度下检测汽车的表现。对于速度在0至0.5m/s的汽车,两种方法的平均精度差别不大,但是该研究提出的方法的平均视锥体误差略低,并且平均精度略高,表明该方法在低速行驶场景下具有优势。然而,对于速度在0.5至5m/s的汽车,该研究提出的方法的平均精度明显低于CenterPoint方法,而平均视锥体误差明显高于CenterPoint方法,表明该方法在中等速度场景下存在一定的不足。对于速度在5至10m/s和大于10m/s的汽车,该研究提出的方法的平均精度和平均视锥体误差都优于CenterPoint方法,表明该方法在高速行驶场景下具有优势。需要注意的是,该研究提出的方法在速度在0.5至5m/s的汽车检测中表现不佳,可能是由于该方法主要依赖于物体的形状信息,而在这种速度下,汽车的形状可以被其他因素如运动模糊所影响,导致检测不准确。

461b91a83c8e5c9caf593df53b9c025a.png

然后分析了不同物体参数(如高度和速度)对检测性能的影响,并与基于激光雷达的检测方法进行了比较。实验结果表明,该研究提出的方法可以有效地检测不同高度和速度的物体,尤其是对于高速行驶的物体,优势更为明显。此外,该研究还指出毫米波雷达存在的高度信息缺失问题,并提出了一种解决方案来优化检测性能。这些结果表明了多模态传感器数据融合在三维物体检测中的潜力和优势。

5. 讨论

c1af18d8b74ab42dc0fe3d8ac49bae0f.png

该文提出的方法主要应用于多模态传感器融合的三维物体检测任务,特别适用于基于激光雷达和毫米波雷达的传感器融合。该方法可以在不同高度的物体检测中取得较好的表现,并且在高速行驶场景下具有优势。

该方法的主要缺点是需要同时使用激光雷达和毫米波雷达的数据,因此成本较高。此外,该方法基于点云数据,对于目标形状不规则或者存在运动模糊的情况容易受到影响,使得检测精度下降。此外,该方法的运行速度可能较慢,需要进行优化以满足实时性的需求。

总之,该方法在多模态传感器数据融合的三维物体检测任务中表现优异,但在实际应用中需要根据具体场景进行选择,权衡其优点和缺点。

6. 结论

本文探讨了基于激光雷达和毫米波雷达的多模态传感器数据融合在三维物体检测中的应用,研究了该方法对不同物体参数(如高度和速度)的检测性能影响,并与基于激光雷达的检测方法进行了比较。实验结果表明,多模态传感器数据融合可以有效地提高三维物体检测的性能,特别是在高速行驶的物体检测中表现优异。本文还指出毫米波雷达存在的高度信息缺失问题,并提出了一种解决方案来优化检测性能。因此,多模态传感器数据融合在三维物体检测中具有广阔的应用前景,可以进一步提高自动驾驶和智能交通系统的性能。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,如果您希望分享到自动驾驶之心平台,欢迎联系我们!

(一)视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

2f9f8d9d7253e4841db30f8c9d047d8b.png

(扫码学习最新视频)

视频官网:www.zdjszx.com

(二)国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

d0fd45e59ac7157509bea7fbb38431cb.jpeg

(三)【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

7b532e1aa878826d28db036e3a04a198.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

猜你喜欢

转载自blog.csdn.net/CV_Autobot/article/details/131219121