论文解读--2D Car Detection in Radar Data with PointNets

基于PointNets的雷达数据二维汽车检测

摘要

对于许多自动驾驶功能，高精度的感知车辆环境是一个重要的前提。现代高分辨率雷达传感器为每个目标产生多个雷达目标，这使得这些传感器特别适合于二维目标探测任务。这项工作提出了一种方法，使用PointNets完全依赖稀疏雷达数据检测二维物体。在文献中，目前只提出了对对象进行对象分类或边界盒估计的方法。相比之下，该方法便于分类和使用单一雷达传感器对物体的边界盒估计。为此，对雷达数据进行分割，进行二维目标分类，并对二维边界盒进行回归，以估计一个模态的二维边界盒。该算法的评估使用一个自动创建的数据集，其中包括各种真实的驾驶机动。结果表明，利用PointNets在高分辨率雷达数据中探测目标具有巨大的潜力。

1.介绍

对于自动驾驶来说，感知是一项重要的任务。特别是，利用雷达、激光雷达和照相机等传感器提供的噪声数据来跟踪多个物体，是一项至关重要的任务。一种标准的方法是对接收到的传感器数据进行预处理，以生成目标检测，并用作跟踪算法的输入。对于照相机和激光雷达传感器，已经开发了各种物体探测器，用分类的二维或三维矩形边界框的形式获得物体假设。据作者所知，到目前为止，在文献中还没有提出过针对雷达的目标检测方法来进行分类和边界盒估计。虽然现代高分辨率雷达传感器对每个物体产生多个探测，但与激光雷达点云或相机图像相比，接收到的雷达数据极其稀疏。因此，仅使用雷达数据来识别不同的物体是一项具有挑战性的任务。

贡献是提出了一种利用机器学习方法来检测高分辨率雷达数据中的物体的方法。如图1所示，雷达数据被表示为一个点云，称为雷达目标列表，由两个空间坐标、自我运动补偿多普勒速度和雷达截面（RCS）值组成。由于雷达目标被表示为点云，因此我们希望使用原始点云作为神经网络的输入。现有的处理雷达数据的方法使用特定的表示转换来使用神经网络，例如将雷达数据转换为网格地图表示。然而，PointNets[1]，[2]使直接处理点云成为可能，并适用于这种数据格式。[3]扩展了点目标检测的概念，将二维目标检测器与三维实例分割和三维边界盒估计相结合。所提出的雷达数据目标检测方法是基于Frustum PointNets的方法进行二维目标检测，即对雷达目标列表进行目标分类和分割，并进行二维边界盒回归。在[1]-[3]中使用的三维激光雷达点云非常密集，甚至捕获了物体的细粒度结构。虽然雷达数据与激光雷达数据相比比较稀疏，但雷达数据在多普勒和RCS信息的形式上包含了很强的特征。例如，车辆的车轮会产生显著的多普勒速度，而车牌则会产生具有高RCS值的目标。雷达数据的另一个优点是，它通常包含一个不直接可见的物体部分的反射，例如，在车辆的对面的轮房。这些特征对雷达目标的分类和分割非常有益，尤其是对目标进行边界盒估计。

图1：雷达数据中的二维目标检测。雷达点云的反射属于汽车（红色）或杂物（蓝色）。箭头的长度表示多普勒速度，点的大小表示雷达的横截面值。红色的方框是一个预测的模态二维边界方框。

本工作的结构如下。第二节展示了利用雷达数据进行目标分类和边界框估计等领域的相关工作。此外，还介绍了利用PointNets处理点云的深度学习方法。第三节描述了本贡献解决的问题。第四节展示了所提出的在雷达数据检测二维目标的方法。此外，还描述了自动生成的雷达数据集，并解释了训练过程。第五节显示了根据真实世界的雷达数据进行评估的结果。

2.相关工作

雷达数据中的目标分类：对于雷达数据中的目标分类，Heuel和Rohling[4]-[6]提出了自定义提取特征的方法来识别行人和车辆进行分类。Wohler等人[7]提取随机特征，并将其作为随机森林分类器和长短期记忆网络的输入。为了对静态对象进行分类，Lombacher[8]等人随着时间的推移积累原始雷达数据，并将其转换为网格地图显示[9]。然后，潜在物体周围的窗口被切断，作为深度神经网络的输入。此外，Lombacher等人[10]利用雷达数据推断出静止物体的语义表达。为此，对卷积神经网络采用占用雷达网格图。

雷达数据中的边界框估计：另一项任务是估计对象，而不是边界框，即对象的位置、方向和维度。Roos等人[11]提出了一种使用高分辨率雷达来估计车辆的方向和尺寸的方法。为此，收集了两个雷达的单次测量值，并应用了定向边界盒算法和l-拟合算法。[12]等人展示了另一种使用高分辨率雷达数据来估计边界盒的方法。为此，利用k-最近邻法的一种变体，估计了车辆的位置和维数。此外，Schlichenmaier等人[13]提出了一种使用模板匹配来估计表示车辆的边界盒的算法。特别是在具有挑战性的场景下，模板匹配算法优于定向边界框方法。该方法的一个缺点是，在进行边界盒估计时，却考虑了不属于车辆的杂波点。

PointNets：大多数神经网络的输入必须遵循一个规则的结构，例如，图像网格或网格地图表示。这就要求，在将点云或雷达目标等数据输入神经网络之前，必须以常规格式进行转换。点网体系结构克服了这一限制，并支持点云作为输入。Qi等人[1]提出了利用PointNets对三维激光雷达点云进行三维分类和语义分割。由于PointNets体系结构不能捕获由度量空间引起的局部结构，因此捕获细节的能力是有限的。因此，Qi等人[2]也提出了一种分层神经网络，它递归地应用于输入点集的小区域。Schumann等人[14]使用相同的PointNets++架构对雷达点云进行语义分割。为此，该体系结构被修改以处理具有两个空间和两个特征维度的点云。雷达数据在500 ms的时间段内积累，得到一个更密集的点云，每个物体的反射更多。随后，每个雷达目标被分为六个不同的类别。因此，只执行语义分割，而不执行语义实例分割或边界盒估计。利用图像和激光雷达数据，Qi等人的[3]提出了Frustum PointNets，以检测三维物体。首先，利用基于图像的对象检测器中的二维边界框提取包含对象的三维挫折点云。其次，利用分割点网对结果进行三维实例分割。第三，利用回归PointNets估计一个模态三维边界盒。因此，Frustum PointNets是第一个执行目标检测的方法，包括使用PointNets对非结构化数据进行边界盒估计。

3.问题陈述

在雷达点云下，该方法的目标是检测目标，即在二维空间中对物体进行分类和定位（图1）。雷达点云表示为一组四维点P = {pi |i = 1，…，n}，其中n∈N表示雷达目标数。此外，每个点pi=（x，y，vr˜，σ）包含（x，y）坐标、自我运动补偿多普勒速度vr˜和雷达截面值σ。雷达数据由单个雷达的一个测量周期产生，不会随时间而累积。

对于对象分类，本文区分了两个类，汽车和杂点。此外，对于分配给类别车的雷达目标，预测一个模态二维边界，即即使雷达传感器只捕获部分，也估计整个物体。二维边界框由其中心（xc、yc）、其在xy平面上的航向角θ以及其包含长度l和宽度w的大小来描述。

4.使用PointNets的二维目标检测

利用雷达数据提出的二维目标探测系统的概述如图2所示。本节介绍了该系统的三个主要模块：区块方案、分类和分割，以及模态二维边界盒估计。

图2：使用PointNets的雷达数据二维目标检测。首先，一个区块方案使用整个雷达目标列表来确定多个感兴趣的区域，称为区块。其次，一个分类和分割网络对这些区块进行了分类。然后，对每个雷达目标进行分类，得到一个实例分割。最后，一个回归网络利用m个分段汽车雷达目标估计目标的模态二维边界框。

A.区块方案

区块方案将雷达点云划分为感兴趣的区域。为此，在每个雷达目标周围确定一个具有特定长度和宽度的区块。区块的长度和宽度必须选择这样一种方式，它包括整个感兴趣的对象，这里是一辆汽车。此外，每个区块必须包含足够的雷达目标来区分分类中的汽车和杂波区块，以及分割步骤中的汽车和杂波雷达目标。区块方案将生成包含相同对象的多个区块。因此，最终的二维对象检测器为单个对象提供了多个假设。这种行为是可取的，因为在环境感知的进一步处理链中的对象跟踪系统处理每个对象的多个假设。注意，跟踪系统不是这项工作的一部分。正如[3]中所描述的，区块被归一化到一个中心视图，这确保了算法的旋转不变性。最后，将一个区块内的所有雷达目标转发到分类分割网络。

B.分类和分割

分类和目标分割模块由一个网络组成，它对每个区块进行分类，并对区块内的所有雷达目标进行分割。为此，我们考虑对整个区块使用分类网络来区分汽车区块和杂波区块。对于汽车区块，分割网络预测每个雷达目标的概率分数，表示雷达目标属于汽车的概率。在掩蔽步骤中，提取被分类为汽车目标的雷达目标。如[3]所示，对分割后的雷达目标的坐标进行归一化处理，以确保算法的平移不变性。

请注意，分类和分割模块可以很容易地扩展到多个类。为此，该区块被划分为一定的类，因此将预测的分类信息用于分割步骤。

C.模态二维边界框估计

在对象点分割后，该模块估计了一个相关的模态二维边界框。首先，一个轻量级回归PointNet，称为Transformer PointNet（T-Net），估计模态边界框的中心，并将雷达目标转换为相对于预测中心的局部坐标系。这个步骤和T-Net架构在[3]中有详细的描述。使用T-Net的变换是合理的，因为在观察角度上，分割点的质心可能与模态边界框的真实中心不同。

对于二维边界框估计，使用了与[3]中提出的概念相同的框回归PointNet。回归网络预测了一个二维边界框的参数，即其中心（xc、yc）、航向角θ和大小（l、w）。对于框中心估计，对[3]进行基于残差的二维定位。如[3]中所述，通过结合分类和分割方法来预测边界框的朝向角和大小。更准确地说，为了尺寸估计，分类任务中包含了预定义的尺寸模板。此外，还对这些类别的残差值进行了预测。

在多个类的情况下，框估计网络也使用分类信息进行边界框回归。因此，尺寸模板必须通过其他类别进行扩展，例如，行人或骑自行车者。

D.网络架构

对于雷达数据中的目标检测任务，网络结构基于PointNet[1]和Frustum PointNet[3]的概念。图3显示了由分类、分割和二维边界框回归网络组成的网络体系结构。对于分类和分割网络，其架构在概念上类似于[1]。模态二维边界框估计网络与[3]中提出的相同。在本工作中，分类和边界框回归网络的输入是雷达数据。因此，关于原始PointNet的输入被扩展到雷达目标列表。在分类分割网络和边界框回归网络中，雷达目标被表示为包含二维空间数据、自我运动补偿多普勒速度和RCS信息的四维点集。对于分类和分割网络，输入的是一个具有n个区块点的雷达目标列表。然后，将具有m个点的分割雷达目标列表输入二维边界框估计网络。

图3：基于PointNets的雷达数据中二维目标检测的网络架构。该模型是基于PointNet的。输入点是一个雷达目标的列表。为了获得分类网络中的全局特征，该模型由一个多层感知器（mlp）和一个最大池化层组成。在全连接（FC）层后，得到整个点云的分类得分。在分割网络中，将局部特征和全局特征与分类的输出分数相结合，该模型应用mlp获得目标概率。在框估计网络中，它包含mlp和最大池化层来得到全局特征。特性与分类分数结合起来，并被转发到FC层，以确定方框参数。

E.数据集

为了在雷达数据中训练和测试所提出的二维目标检测方法，我们在测试轨道上创建了一个具有真实世界雷达数据的数据集。使用了Ulm大学[15]的两辆测试车辆，一辆自车和一辆目标车辆。自车配备了两个来自大陆公司的ARS 408-21高级雷达传感器，安装在车辆的前角。注意，在本工作中，只使用安装在左前角的雷达传感器。这两辆车都配备了一个来自GeneSys的汽车动态运动分析仪（ADMA）传感器单元和一个高精度的差分全球定位系统（DGPS）。目标车辆是奔驰e级旅行车S212。目标车辆的地面真实数据使用ADMA数据生成，并表示为一个包含位置、方向和维度的边界框。

在记录数据集时，有不同的天气条件。该数据集包括11种不同的驾驶策略，例如，画圆和绕8字，自车前方运动或朝向自车，以及穿过自车。这个想法是为了在训练条件下覆盖尽可能多的策略，这些策略可以尽可能地转移到现实世界的交通场景中。

标注过程以目标车辆的地面真实边界框作为参考，生成自动标注的雷达目标。参考边界框内的每个雷达目标标记为汽车目标，其他目标标记为杂波目标。由于雷达测量通常是有噪声的，靠近目标车辆的目标可以属于汽车类。因此，真实边界框的长度和宽度都延长了0.35 m。自动标注过程的最大优点是，可以用最小的努力对大量的数据进行标注。

区块方案后，即在每个雷达目标周围生成区块，如果定义区块的雷达目标（区块中心的雷达目标）属于车类，则将区块标注为车类。否则，将将该区块视为杂波区块。由于分配一个类和估计一个边界框都需要一定数量的雷达目标，因此数据集是在一定的条件下创建的。因此，每个车区块必须包含至少2个属于汽车类的雷达目标，每个杂波车片必须包含至少16个属于杂波类的雷达目标。由于杂波区块的例子更多，标注区块的结果分布是不平衡的，更准确地说，只有4.77%的区块属于汽车类。

为了进行训练、验证和测试，该数据集被分为三个部分：训练、验证和测试数据。训练数据用于训练模型。在训练过程中对模型的评估使用了验证数据。验证数据包含与训练数据相同的驾驶策略。例如，如果一个策略被驱动了5次，那么其中3个被添加到训练数据中，其余的被添加到验证数据中。这确保了所有训练过的驾驶策略都包含在验证数据中。利用测试数据，显示了模型在训练过程后的泛化能力。测试数据由不同于训练机动的不同驾驶策略组成。因此，测试数据与训练数据和验证数据完全分离。总的来说，61.68%的区块用于训练，19.62%用于验证，18.70%用于测试。

F.训练

如[3]中所提出的，在多任务损失的情况下进行训练，以同时优化分类和分割PointNet、T-Net和模态二维包围框估计PointNet。由于该工作在分割前使用了补丁分类，因此多任务损失由[1]中提出的分类部分扩展。因此，多任务损失定义为

在式(1)中，Lcls表示贴片分类的损失，以及区块中雷达目标分割的Lseg。这两种损失都可以分别由参数wcls和wseg进行加权。由于汽车和杂波区块在数据集中的分布是不平衡的，在训练过程中，汽车区块的wcls和wseg的权重选择更高。所有其他的损失都用于边界框回归。这里，Lc1−reg用于T-net的基于残差的中心回归，Lc2−reg用于模态框估计网络的中心回归。此外，Lh−cls和Lh−reg是用于航向角估计的损失，Ls−cls和Ls−reg是用于边界框的尺寸估计。角度损失Lcorner，权重为wcorner，是[3]中提出的一种新的正则化损失，用于联合优化边界框的中心、尺寸和航向角。构造该损失是为了保证在并集度量上的交点下具有良好的二维边界框估计。参数wbox对边界框估计进行加权。如果一个区块被归类为杂波区块，则wbox被设置为零，结果是不进行边界框估计。此外，分类和分割任务采用具有交叉熵损失的柔性最大值传输函数，回归任务的损失计算采用smooth-l1（huber）损失。

为了保证输入点的固定数量，我们进行了采样。为了进行分类和分割，从每个区块中绘制多达48个雷达目标。由于汽车类产生的雷达目标数量稀疏，因此在训练过程中考虑了所有的汽车目标，只对杂波点进行采样。在测试目标探测器时，雷达目标的采样与类别无关。对于模态二维边界框估计，从分割后的雷达目标中随机采样多达32个点。

数据增强是避免模型过拟合的一个有用的概念。因此，对于一个区块的所有雷达目标，在训练过程中都应用了数据增强。首先，通过沿x和y方向均匀地随机移动所有雷达目标来扰动雷达区块中的空间信息。其次，对于汽车目标，采用均值为零、标准差为0.2的随机高斯噪声来扰动自我运动补偿的多普勒速度。第三，对于干扰汽车目标的RCS值，采用均值为零、标准差为1的高斯分布的随机噪声。

模型的训练使用Adam优化器，对除最后的分类和回归层外的所有层进行批处理归一化。两个模型的初始学习均取0.0001。此外，用于训练的批次大小选择为32。在单个NVIDIA GeForce GTX 1070 GPU上进行11个阶段的训练。

该模型在包含至少2个汽车目标和每个区块16个杂波目标的完整数据集上进行训练。此外，启发式地选择训练中多任务损失的权重，对于汽车区块，wcls = 2，wseg = 2，对于杂波区块，wcls = 1, wseg = 1，对于边界框估计，wbox = 1, wcorner = 10。由于利用稀疏雷达目标点云优化边界框回归比分类和分割任务更为复杂，因此选择了显著较高的边界框估计损失权重。这是因为多普勒速度和RCS值是较强的特征，因为汽车和杂波雷达目标的RCS和多普勒速度差异很大。

5.实验

本节介绍了在雷达数据中提出的二维目标检测器的结果。为此，评估了分类和分割以及二维边界框估计。此外，还讨论了研究结果和限制条件。

A.评估

由于所提出的二维目标检测方法包含分类、分割和边界框估计，因此将对这三个模块的性能进行评估。分类和分割采用准确性和F1-Score。对于边界框回归，性能通过交并比（IoU）来衡量。

F1-Score是精度P和召回率R之间的调和平均值，由下式给出

F1=2*P*R / ( P+R) （2）

IoU将预测的边界框bpred与地面真实边界框bgt进行比较，并定义为

（3）

其中，|·|测量底层集合的面积。如果地面真值和预测的边界框几乎相同，IoU得分趋于接近1。如果这两个边界框完全不重叠，则IoU得分将为零。

在完整的数据集上进行了测试，其中每个区块的汽车和杂波目标的数量分别至少为2个和16个。区块（第四-A节）的长度和宽度选择为10 m，这保证区块在任何时候都包含整个车辆。进一步，单一驾驶策略被评估。因此，雷达目标探测从一个传感器的测量周期中处理所有被测量的雷达目标。因此，没有给出每辆车和杂波区块中至少分别包含2辆车和16个杂波雷达目标的条件。表一为雷达数据中的目标检测结果。该目标检测器在分类和分割精度以及边界框回归方面取得了良好的效果。在驾驶策略中，自车跟随目标车辆有超车和无超车时，目标检测器在二维边界框估计方面显示出最佳结果。考虑到推理时间，所提出的目标检测器每个区块需要2.9 ms进行预测(分类和分割以及模态 2D包围框估计)。

表1：雷达数据中的二维目标检测结果。目标检测器将在测试集上进行评估。评估分类和分割的准确性和F1-Score。IoU通过使用平均IoU（mIoU）和IoU的比率来评估二维边界框的估计。考虑了整个测试数据集和单个驾驶策略。

B.讨论

一般来说，二维目标探测器在雷达数据中的检测结果是很有前景的。然而，需要注意的是，所呈现的数据集是有限的。该数据集在每个雷达测量周期中只包含一个对象。另一个限制是，物体总是具有相同的地面真值大小，因此不能更详细地考虑尺寸估计的结果。然而，所提出的方法提供了处理不同大小的机制，但它们的效果必须在未来的工作中进行评估。同样的论证也适用于多类的检测。提供了识别多个类的机制，但是当前的数据集不包括具有不同类的对象。在未来的研究中，该数据集将扩展到多个对象和多个类。

另一点需要注意的要点是，在进一步的工作中，雷达数据的目标探测器将是一个融合多个雷达传感器数据的多目标跟踪系统的预处理模块。这就是为什么没有使用多个雷达测量来获得更密集的点云的主要原因。不同时间戳的雷达测量，以及多个雷达传感器的测量，可以用复杂的目标跟踪系统进行处理。此外，对象跟踪器可以概率地对每个对象建模多个假设。因此，目标检测器希望生成多个假设，并由区块方案模块来保证。由于一个雷达传感器只能提供每个测量周期的稀疏数据，所提出的目标探测器自然会产生误检测或杂波测量。然而，一个多对象跟踪器，如标记的多伯努利滤波器[16]，能够处理这个问题。

6.结论

本文提出了一种在稀疏雷达数据中检测二维物体假设的方法。目标检测器执行目标分类和二维分割，以及使用PointNets变量的模态二维边界盒估计。虽然在这项工作中只考虑了一个对象类，但结果是有希望的，所提出的方法需要进一步研究。在未来的工作中，数据集将被扩展为几个类，以研究多个类的对象检测器的性能。此外，属于同一类的数据集中的对象将具有不同的大小，以检查对象维度的影响。