论文解读--K-Radar:4D Radar Object Detection for Autonomous Driving in Various Weather Conditions

摘要

与使用可见光波段(384 ~ 769 THz)的RGB相机和使用红外波段(361 ~ 331 THz)的激光雷达不同,雷达使用波长相对较长的无线电波段(77 ~ 81 GHz),因此在恶劣天气下也能进行可靠的测量。遗憾的是,与现有的相机和激光雷达数据集相比,现有的雷达数据集只包含相对较少的样本。这可能会阻碍基于雷达感知的复杂数据驱动深度学习技术的发展。此外,大多数现有的雷达数据集只提供3D雷达张量(3DRT)数据,其中包含沿多普勒、距离和方位角维度的功率测量。由于没有高程信息,从3DRT中估计物体的三维边界盒是一种挑战。在这项工作中,我们介绍了KAIST-Radar (K-Radar),这是一种新型的大规模目标检测数据集和基准,包含35K帧的4D雷达张量(4DRT)数据,沿着多普勒、距离、方位角和高程维度测量功率,以及道路上物体的仔细注释的3D边界框标签。k -雷达包括各种道路结构(城市、郊区道路、小巷和高速公路)上的恶劣天气(雾、雨和雪)等具有挑战性的驾驶条件。除了4DRT外,我们还提供精密校准的高分辨率激光雷达、环绕立体声摄像机和RTK-GPS辅助测量。我们还提供了基于4drt的目标检测基线神经网络(基线神经网络),并表明高度信息对三维目标检测是至关重要的。通过将基线神经网络与结构相似的基于激光雷达的神经网络进行比较,我们证明了4D雷达在恶劣天气条件下是一种更鲁棒的传感器。所有的代码可以从https://github.com/kaist-avelab/k-radar获取。

1.介绍

自动驾驶系统通常由感知、规划和控制等顺序模块组成。由于规划和控制模块依赖于感知模块的输出,因此即使在不利的驾驶条件下,感知模块的鲁棒性也至关重要。

最近,各种工作提出了基于深度学习的自动驾驶感知模块,在车道检测、目标检测等任务中表现出显著的性能。这些工作通常使用RGB图像作为神经网络的输入,因为有大量的公共大规模数据集可用于基于相机的感知。此外,RGB图像的数据结构相对简单,数据维数相对较低,相邻像素之间往往具有较高的相关性。这种简单性使深度神经网络能够学习图像的底层表示,并识别图像上的物体。

不幸的是,相机容易出现较差的照明,很容易被雨滴和雪花遮挡,不能保存深度信息,这对准确的三维场景理解环境是至关重要的。另一方面,激光雷达在红外光谱中主动发射测量信号,因此测量结果几乎不受光照条件的影响。激光雷达还可以在厘米分辨率内提供精确的深度测量。然而,激光雷达测量仍然受到不利天气的影响,因为信号的波长(λ=850nm ~ 1550nm)不够长,无法穿过雨滴或雪花。

与激光雷达类似,雷达传感器主动发射波并测量反射。而雷达发射的无线电波(λ≈4mm)可以穿过雨滴和雪花。因此,雷达测量在低光照和恶劣天气条件下都是稳健的。这种鲁棒性在(Abdu等人,2021年)中得到了证明,其中基于调频连续波(FMCW)雷达的感知模块被证明即使在不利的天气条件下也非常准确,而且可以很容易地直接在硬件上实现。

随着具有密集雷达张量(RT)输出的FMCW雷达变得唾手可得,许多研究提出了基于RT的目标检测网络,其检测性能与基于相机和激光雷达的目标检测网络相当。然而,这些工作仅限于二维鸟瞰(BEV)目标检测,因为现有工作中使用的FMCW雷达仅提供三维雷达张量(3DRT),顺着多普勒、距离和方位角维度的功率测量。

在本研究中,我们引入了基于4D雷达张量(4DRT)的三维目标检测数据集和基准kist -Radar (K-Radar)。与传统的3DRT不同,4DRT包含顺着多普勒、距离、方位角和仰角维度的功率测量,因此可以保存3D空间信息,这可以实现精确的3D感知,如使用激光雷达进行3D物体检测。据我们所知,K-Radar是第一个基于4drc的大规模数据集和基准,从各种道路结构(如城市、郊区、高速公路)、时间(如白天、夜晚)和天气条件(如晴朗、雾、雨、雪)收集35k帧。除了4DRT, k -雷达还提供高分辨率激光雷达点云(lpc),来自4个立体相机的环绕RGB图像,和RTK-GPS和自驾车的IMU数据。

 图1:FMCW雷达的信号处理概述和两种主要数据类型(即雷达张量(RT)和雷达点云(RPC))的可视化。RT是一个密集的数据矩阵,通过应用于FMCW信号的快速傅里叶变换(FFT)操作,在所有元素顺着维度测量功率。由于所有元素都是非零值,RT以最小的损失提供有关环境的密集信息,但需要高的内存需求。另一方面,RPC是一种数据类型,通过对RPC应用恒定虚警率(Constant False Alarm Rate, CFAR)算法,以具有少量内存的点云的形式提取目标(即对象候选组)信息。由于FFT和CFAR易于直接在硬件上实现,许多雷达传感器提供RPC作为输出。但是,由于CFAR算法,RPC可能会丢失大量关于环境的信息。

由于4DRT高维表示对人类来说是不直观的,我们利用高分辨率的LPC,使注释器可以在可视化点云中准确地标记道路上物体的3D边界框。3D边界框可以很容易地从激光雷达转换到雷达坐标框架,因为我们提供了空间和时间校准参数,分别校正由于传感器和异步测量的分离而产生的偏移。K-Radar还为每个带注释的对象提供了唯一的跟踪ID,这对于沿着帧序列跟踪对象非常有用。关于跟踪的信息示例见附录K.7。

 图2:各种天气条件下的K-Radar数据集样本。每一列显示(1)4drt,(2)摄像机前视图图像,(3)不同天气条件下的激光雷达点云(LPCs)。4drt使用3.3节中描述的一系列可视化过程在二维(BEV)笛卡尔坐标系中表示。在本例中,黄色和红色边界框分别表示轿车类和公共汽车或卡车类。附录A包含各种天气条件下K-Radar数据集的更多样本。

为了证明基于4DRT的感知模块的必要性,我们提出了一个直接使用4DRT作为输入的3D对象检测基线神经网络(基线NN)。从k -雷达上的实验结果来看,基于4drd的基线神经网络在三维目标检测任务中的表现优于基于lidar的网络,特别是在恶劣天气条件下。我们还表明,利用高度信息的基于4drt的基线神经网络显著优于仅利用BEV信息的网络。此外,我们发布了完整的开发工具包(devkits),包括:(1)基于4drn的神经网络的训练/评估代码,(2)标记/校准工具,以及(3)可视化工具,以加速基于4drn的感知领域的研究。

总的来说,我们的贡献如下:

•我们提出了一种新的基于4drd的数据集和基准,K-Radar,用于3D目标检测。据我们所知,K-Radar是第一个基于4drc的大型数据集和基准,具有多样化和挑战性的照明、时间和天气条件。有了仔细标注的3D边界框标签和多模式传感器,K-Radar还可以用于其他自动驾驶任务,如物体跟踪和里程计。

•我们提出了一个直接使用4DRT作为输入的三维物体检测基线神经网络,并验证了4DRT的高度信息对于三维物体检测是必不可少的。我们还展示了基于4drd的自动驾驶感知的鲁棒性,特别是在恶劣天气条件下。

•我们提供的开发工具包包括:(1)培训/评估,(2)标记/校准,以及(3)可视化工具,以加速自动驾驶研究中基于4drt的感知。

本文的其余部分组织如下。第2节介绍了与自动驾驶感知相关的现有数据集和基准。第3节解释K-Radar数据集和基线nn。第四节讨论了基线神经网络在K-Radar数据集上的实验结果。第五部分对本文的局限性进行了总结和讨论。

2.相关工作

深度神经网络通常需要从不同的条件中收集大量的训练样本,才能获得优异的泛化性能。在自动驾驶中,有大量的目标检测数据集,提供了各种传感器模式的大规模数据,如表1所示。

表1:自动驾驶目标检测数据集与基准测试的比较。HR和LR分别指64通道以上的高分辨率Lidar和32通道以下的低分辨率Lidar。边界框、目标Id和里程表。分别为包围框标注、跟踪ID和里程计。粗体文本表示每个类别中的最佳条目。

 KITTI是最早和广泛使用的自动驾驶物体检测数据集之一,提供相机和激光雷达测量,以及精确校准参数和3D边界框标签。然而,样本的数量和数据集的多样性是相对有限的,因为数据集的15K帧大多在白天的城市地区收集。另一方面,Waymo和NuScenes分别提供了大量230K和40K帧的样本。在这两个数据集中,帧都是在白天和晚上收集的,增加了数据集的多样性。此外,NuScenes提供了3D雷达点云(RPC), Nabati和Qi(2021)证明利用雷达作为神经网络的辅助输入可以提高网络的检测性能。然而,由于CFAR阈值操作,RPC丢失了大量的信息,并在作为网络的主要输入时导致较差的检测性能。例如,在NuScenes数据集上,基于激光雷达的3D物体检测的最新性能是69.7%的mAP,而基于雷达的只有4.9%的mAP。

在文献中,有几个基于3drt的自动驾驶目标检测数据集。CARRADA (Ouaknine等人,2021年)提供距离-方位角和距离-多普勒维度的雷达张量,并在受控环境(宽平面)中标注最多两个物体。另一方面,Zenar (Mostajabi等人,2020)、radiation (Sheeny等人,2021)和RADDet (Zhang等人,2021)提供了在真实道路环境中收集到的雷达张量,但由于3drt中缺乏高度信息,只能提供2D BEV边界框标签。CRUW (Wang et al., 2021b)提供了大量的3drt,但注释只提供了对象的2D点位置。VoD (Palffy等人,2022年)和Asytx (Meyer和Kuschk, 2019年)提供了带有4drpc的3D边框标签。然而,密集的4drt没有提供,并且数据集中的样本数量相对较小(即8.7K和0.5K帧)。据我们所知,提出的K-Radar是第一个在不同条件下提供4DRT测量以及3D边界框标签的大规模数据集。

表2:自动驾驶目标检测数据集和基准测试的比较。D /n指的是白天和夜晚。粗体文本表示每个类别中的最佳条目。

 自动驾驶汽车应该能够在恶劣天气条件下安全运行,因此,自动驾驶数据集中的恶劣天气数据的可用性是至关重要的。在文献中,BDD100K (Yu et al., 2020)和radiation数据集包含在不利天气条件下获得的帧,如表2所示。但是BDD100K只提供RGB的正面图像,而radiation只提供32通道的低分辨率LPC。同时,提出的k -雷达提供4DRT、64通道和128通道的高分辨率LPC和360度RGB立体图像,这使得利用雷达、激光雷达和相机开发多模式方法,解决恶劣天气条件下自动驾驶的各种感知问题。

3.K-Radar

在本节中,我们将描述用于构造K-Radar数据集的传感器的配置、数据收集过程和数据分布。然后,我们解释了4DRT的数据结构,以及可视化、校准和标记过程。最后,我们提出了可以直接消耗4DRT作为输入的3D目标检测基线网络。

3.1.K-Radar传感器说明

为了在恶劣天气下收集数据,我们按照图3所示的配置,安装了五种等级为IP66的防水传感器(列于附录B)。首先,将4D雷达安装在汽车的前格栅上,以防止由于汽车引擎盖或顶棚造成的多路径现象。其次,一个64通道远程激光雷达和一个128通道高分辨率激光雷达分别以不同的高度安装在车顶中心(图3-(a))。远程lpc用于精确标记各种距离的物体,而高分辨率lpc提供了宽(即44.5度)垂直视场(FOV)的密集信息。第三,在车辆的前、后、左、右各放置一个立体摄像头,产生4个立体RGB图像,覆盖自驾车视角的360度视场。最后,一个RTK-GPS天线和两个IMU传感器设置在车辆的后方,以实现自我车辆的精确定位。

 图3:K-Radar传感器套件及各传感器坐标系统。(a)显示在大雪中行驶5分钟后传感器的情况。由于汽车向前行驶,积雪在传感器前方大量堆积,覆盖了前置相机镜头、Lidar和Radar表面,如图(a)所示。因此,在大雪期间,前置相机和Lidar无法获取大部分环境信息。相比之下,雷达传感器对不利天气是稳健的,因为发射的波可以通过雨滴和雪花。这张图强调了(1)雷达在不利天气条件下的重要性,特别是在大雪天气下的重要性,(2)考虑到不利天气条件,需要安装传感器和额外的设计(例如,在激光雷达前面安装雨刷)。(b)为各传感器的安装位置及各传感器的坐标系统。

3.2.数据收集和分布

大部分恶劣天气的帧都收集在全国年降雪量最高的江原道。另一方面,与城市环境相关的画框多收集于韩国大田。数据收集过程产生35K帧的多模态传感器测量,构成K-Radar数据集。根据附录c中列出的标准,我们将收集到的数据分类为几个类别。此外,我们将数据集分为训练集和测试集,以一种平衡的方式在两个集中出现每种条件,如图4所示。

 图4:数据在收集时间(晚上/白天)、天气条件和道路类型上的分布。中间的饼图显示了数据在收集时间内的分布,而左右的饼图分别显示了列车和测试组的天气条件和道路类型的数据分布。在每个饼图的外部边缘,我们陈述了采集时间、天气条件和道路类型,在内部部分,我们陈述了每个分布中的帧数。

在距离自车纵向半径为120m、横向半径为80m的道路上,共有93.3个物体(轿车、公共汽车或卡车、行人、自行车和摩托车)的三维边界框标签。请注意,我们只注释出现在正纵向轴上的对象,即在自车前面的对象。

在图5中,我们展示了K-Radar数据集中物体类别的分布和距离自车的物体距离。距离自车60米以内的物体数量最多,在0m ~ 20m、20m ~ 40m、40m ~ 60m的距离范围内,10K ~ 15K的物体数量最多,超过60m的距离范围内,7K左右的物体数量最多。因此,K-Radar可以用来评估三维目标探测网络在不同距离上的目标的性能。

 图5:K-Radar数据集中提供的训练/测试分割的对象类别和到自车的距离分布。我们在饼图的外层写上对象的类别名称和到自我交通工具的距离,在饼图的内部写上每个分布中的对象数量。

3.3.数据显示、标定、标注流程

与缺乏高度信息的3D雷达张量(3DRT)相反,4D雷达张量(4DRT)是一个密集的数据张量,充满了四维功率测量:多普勒、距离、方位角和仰角。然而,密集数据的额外维度在将4DRT可视化为稀疏数据如点云(图2)方面带来了挑战。为了解决这个问题,我们通过如图6-(a)所示的启发性处理将4DRT可视化为笛卡尔坐标系下的二维热图,这将产生鸟瞰视图(BEV-2D)、正面视图(FV-2D)和侧视图(SV-2D)中的二维热图可视化。我们将这些2D热图统称为bbs -2D。

通过BEV-2D,我们可以直观地验证4D雷达对不利天气条件的鲁棒性,如图2所示。如前所述,相机和激光雷达的测量结果可能会在不利的天气条件下恶化,如雨、雨夹雪和雪。在图2-(e,f)中,我们展示了激光雷达对一个远距离物体的测量在大雪条件下丢失。然而,4DRT的BEV-2D清楚地表明了物体边界框边缘的高功率测量。

 图6:(a) 4DRT可视化过程和(b) 4DRT可视化结果。(a)是将4DRT(极坐标)可视化为BFS - 2D(笛卡尔坐标)的过程,分为三步:(1)通过按维度平均降低4DRT的多普勒维来提取包含沿D距离、方位角和仰角维度(3DRT-RAE)测量值的3D雷达张量,(2)将3DRT-RAE(极坐标)转换为3DRT-XYZ(笛卡尔坐标),(3)通过去除3DRT-XYZ的三个维度之一,最终将4DRT可视化为二维笛卡尔坐标系。(b)是通过(a)的过程将4DRT-3D信息可视化为BFS-2D的一个例子。我们还在(b)的上侧展示了摄像机的前视图图像和同帧的LPC,并将汽车的边界框用红色标出。如(b)所示,4DRT由三种视图(即BEV、侧视图和正面视图)表示。我们注意到,高功率测量是在车轮上观察,而不是车辆的身体时,与实际车辆模型图片与物体的侧视图和前视图比较。这是因为无线电波反射主要发生在金属制成的车轮中(Brisken等人,2018年),而不是在由增强塑料制成的车辆的车身中。

即使使用BFS-2D,对于人工标注人员来说,识别出现在框架上的物体的形状并准确地注释相应的3D边界框仍然是一项挑战。因此,我们创建了一个工具,支持在lpc中标注3D边界框,在那里物体形状更容易识别。此外,我们使用BEV-2D在由于恶劣天气条件导致激光雷达测量数据丢失的情况下帮助标注人员。详情见附录D.1。

我们还提出了一种工具,对BEV-2D和LPC进行逐帧校准,将3D边界框标签从激光雷达坐标框转换为4D雷达坐标框。校准工具支持每像素1厘米的分辨率,最大误差为0.5厘米。4D雷达和激光雷达之间的校准细节见附录D.2。

另外,我们通过附录D.3中的一系列过程,精确地获得了Lidar与相机之间的标定参数。激光雷达与摄像机之间的标定过程可以使三维边界盒和lpc精确地投影到摄像机图像上,这对于多模态传感器融合研究至关重要,可以用于单眼深度估计研究生成密集的深度图。

3.4.K-Radar的基线神经网络

我们提供了两个基线神经网络来证明高度信息对三维目标检测的重要性:(1)带高度的雷达张量网络(RTNH),它从具有3D稀疏CNN的RT中提取特征图(FMs),从而利用高度信息;(2)无高度的雷达张量网络(RTN),它从具有2D CNN的RT中提取特征图(FMs),但不利用高度信息。

如图7所示,RTNH和RTN都由预处理、脊柱、颈部和头部组成。预处理将4DRT从极坐标转换为笛卡尔坐标,并在感兴趣区域(RoI)内提取3DRT-XYZ。注意,我们通过取沿维数的平均值来减少多普勒维数。然后,主干提取包含重要特征的FMs用于边界框预测。头部通过颈部产生的连接FM预测3D边界框。

图7:用于验证基于4drd的3D对象检测性能的两个基线神经网络。

RTNH和RTN的网络结构在附录E中有详细描述,除了骨干网外,其余结构相似。我们分别用三维稀疏卷积骨干网(3D- scb)和二维密集卷积骨干网(2D- dcb)构建了RTNH和RTN的主干。3D- scb利用三维稀疏卷积,将三维空间信息(X, Y, Z)编码到最终的FM中。我们选择在稀疏RT (RT中前30%的功率测量)上使用稀疏卷积,因为原始RT上的密集卷积需要大量的内存和计算,不适合实时自动驾驶应用。与3D-SCB不同,2D- dcb使用2D卷积,因此只有二维空间信息(X, Y)被编码到最终的FM中。因此,3D- scb产生的最终FM包含3D信息(有高度),而2D- dcb产生的最终FM只包含2D信息(没有高度)。

4.实验

在本节中,我们演示了基于4drd的自动驾驶感知在各种天气下的鲁棒性,以便找到基线神经网络和结构相似的基于激光雷达的神经网络pointcolumns之间的3D对象检测性能比较。我们还通过比较基线神经网络与3D- scb骨干(RTNH)和基线神经网络与2D-DCB骨干(RTN)之间的3D目标检测性能,讨论了高度信息的重要性。

4.1.实验设置与度量

我们在使用RTX3090 GPU的Ubuntu机器上使用PyTorch 1.11.0实现基线神经网络和PointPillars。我们将批大小设置为24,并使用Adam优化器以0.001的学习率训练网络10个epoch。注意,我们将检测目标设置为K-Radar数据集中样本数量最多的轿车类。

在实验中,我们使用广泛使用的基于IOU的平均精度(AP)度量来评估三维目标检测性能。我们为BEV (APBEV)和3D (AP3D)边界盒预测提供AP,其中如果IOU超过0.3,则预测被认为是真正的目标。

表3带和不带高度信息的基线神经网络的性能比较。

 4.2.RTN与RTNH的比较

我们将RTNH和RTN的检测性能对比显示在表3中。我们可以观察到RTNH在AP3D和APBEV中的性能分别比RTN高9.43%和1.96%。特别是在AP3D方面,RTNH显著超过RTN,这表明4DRT中可用的高度信息对于三维物体检测的重要性。此外,与RTN相比,RTNH需要更少的GPU内存,因为它利用了3.4节中提到的内存高效稀疏卷积。

4.3.RTNH与PointPillars的比较

表4雷达和激光雷达神经网络在不同天气条件下的性能比较

 我们在表4中展示了RTNH和一个类似结构的基于Lidar的检测网络PointPillars之间的检测性能比较。在大雪条件下,基于lidar的网络与正常条件相比,BEV和3D检测性能分别下降了18.1%和14.0%。相比之下,基于4D雷达的RTNH检测性能几乎不受不利天气的影响,大雪条件下的BEV和3D目标检测性能与正常条件下相当或更好。结果证明了基于4D雷达的感知在恶劣天气下的鲁棒性。我们在附录F中提供了关于其他天气条件的定性结果和附加讨论。

5.限制和结论

在本节中,我们讨论了K-Radar的局限性,并对这项工作进行了总结,并对未来的研究方向提出了建议。

5.1.4DRT的FOV覆盖限制

如3.1节所述,K-Radar在正向提供4D雷达测量,视场为107度。与激光雷达和相机的360度视场相比,测量覆盖范围更有限。这种限制源于四维密集测量的4DRT的尺寸,与二维相机图像或三维LPC相比,4DRT需要更大的内存来存储数据。具体来说,K-Radar的4DRT数据大小约为12TB,环绕相机图像数据大小约为0.4TB, LPCs数据大小约为0.6TB。由于提供360度4DRT测量需要大量的内存,我们选择只在正向记录4DRT数据,这可以为自动驾驶提供最相关的信息。

5.2.结论

本文介绍了一种基于4drt的三维目标检测数据集和基准K-Radar。K-Radar数据集由35K帧组成,包含4DRT、LPC、环绕相机图像和RTK®IMU数据,所有这些数据都是在不同的时间和天气条件下收集的。K-Radar为5类93300个物体提供3D边界框标签和跟踪ID,距离可达120米。为了验证基于4D雷达的目标检测的鲁棒性,我们引入了以4DRT为输入的基线神经网络。从实验结果中,我们证明了高度信息在3DRT中所没有的重要性,以及4D雷达在不利天气条件下对三维目标检测的鲁棒性。虽然这项工作的实验主要集中在基于4DRT的三维物体检测,但K-Radar可以用于基于4DRT的物体跟踪、SLAM和各种其他感知任务。因此,我们希望K-Radar能够加速自动驾驶基于4DRT感知的工作。

原文链接:

[2206.08171] K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions (arxiv.org)

猜你喜欢

转载自blog.csdn.net/weixin_41691854/article/details/127754382