(论文阅读)K-Lane Lidar Lane Dataset and Benchmark for Urban Roads and Highways

摘要

车道线检测是自动驾驶的一个关键功能。随着近年来深度学习的发展及相机车道线数据集和基准的发布,相机车道线检测网络(CLDNs)得到了显著的发展。不幸的是,CLDNs所依赖的相机图像往往在消失线附近有畸变,并且倾向于在低光照条件下工作。这与激光雷达车道检测网络(Lidar lane detection networks, LLDNs)相比,后者可以直接从鸟瞰视图(BEV)上提取车道线进行运动规划,并在各种光照条件下稳健运行。然而,LLDNs尚未得到积极的研究,由于缺乏大型公共激光雷达车道线数据集。在本文中,我们介绍了KAIST-Lane(K-Lane),世界上第一个也是最大的公开激光雷达的城市道路和高速路车道线数据集。K-Lane有超过15K帧,包含多达6个车道的各种道路和交通条件下的标注,如多种遮挡级别的遮挡道路、白天和夜间的道路、合并(汇入和分流)和弯曲车道。我们还提供基准网络,我们称之为激光雷达车道检测网络,利用全局特征关联器(LLDN-GFC)。LLDN-GFC利用点云车道线的空间特征,车道线稀疏、细,并沿着点云的整个地平面延伸。从实验结果来看,LLDN-GFC在K-Lane上获得了SOTA的性能,F1得分为82.1%。此外,与CLDNs不同,LLDN-GFC在各种光照条件下都表现出了强大的性能,甚至在严重遮挡的情况下也具有鲁棒性,这与使用传统CNN的LLDNs不同。K-Lane、LLDN-GFC训练代码、预训练模型和完整的开发工具包(包括评估、可视化和注释工具)可在https://github.com/kaist-avelab/k-lane上获得。

1. 介绍

自动驾驶依赖于许多关键功能,这些功能都是通过最先进的(SOTA)技术实现的。其中,车道检测函数是检测自我车道和相邻车道的准确位置和曲率,为路径规划函数提供必要的输入。因此,车道检测函数应该对各种条件(如夜间、白天)和具有挑战性的情况(如车道线闭塞)具有鲁棒性。然而,传统的基于图像处理的车道检测技术由于依赖启发式方法,如去噪、边缘检测、与检测到的边缘拟合等,容易出现车道线部分缺失或遮挡的情况[2,3,20]。
最近,车道检测[13,16,23]由于深度学习得到了很大的改进。当一个带有精确标签的大型数据集可以用于训练时,深度学习网络可以产生高质量的预测,几乎与地面事实没有区别。摄像机车道检测网络(CLDNs)就是如此[13,23],当从公共数据集(如CULane[16]和TuSimple[25])中获得丰富的训练样本时,它比传统的(即启发式)车道检测技术表现出更优越的性能。
然而,cldn仍然有一些固有的问题。首先,相机的照明条件很差,比如光线很弱或很刺眼。其次,通常需要将前置摄像头图像投影到二维鸟瞰图(BEV)进行运动规划,这往往会导致车道线失真[1]。例如,在前置摄像头图像[27]的消失线附近检测到的车道的bev投影可能会导致车道线不准确和扭曲,因此应该将运动规划限制在较短的距离。
另一方面,激光雷达在车道检测方面比摄像机有很多优势;由激光雷达点云进行车道检测不受bev投影畸变的影响,也不受光照条件的影响。然而,文献中介绍的研究较少,主要是由于激光雷达车道检测网络(LLDN)没有足够的公共数据集和基准。
在这里插入图片描述
图1。K-Lane的不同条件下的框架示例,其中每一列显示一个条件:每一列总共由三行组成。每一行分别显示左上角的真实BEV标签投影到前视图图像的上部图和位于BEV点云顶部的车道标签的下部图

本文介绍了世界上第一个、也是最大的用于城市道路和高速公路激光雷达车道检测的开放式激光雷达车道数据集KAIST-Lane (K-Lane)。我们还为培训、评估、数据集开发和可视化提供易于使用的开发套件。K-Lane有超过15K个标注框,包含最多6个不同道路和交通条件下的车道,如夜间和白天的道路、合并(会聚和分流)和弯曲车道,如图1所示。每个标注包括车道线分割标签、行驶状况、车道形状和遮挡水平。因此,开发的lldn在不同具有挑战性的条件下的性能可以很容易地进行评估,例如,在夜间驾驶时,或由于高遮挡造成的重大测量损失时。分割标签在BEV图像上精确地标注了一个像素宽度,这就转化为现实世界中4cm × 4cm的面积。标签由一个类id组成,它表示车道线相对于自我车道的相对位置。这使得通过训练LLDNs可以直接推断出自我车道的位置,这对运动规划至关重要。此外,如图1所示,利用激光雷达点云对前置摄像头图像进行了精心的校准,实现了直观的可视化,为进一步使用多模态传感器(如传感器融合)进行车道检测研究铺平了道路。

为了证明利用K-Lane开发lldn的可行性,我们提出了一个基线模型,即利用全局特征相关器(LLDN-GFC)的激光雷达车道检测网络,该网络充分利用了点云中车道线的空间特征。这与文献[1,14]中介绍的大多数基于cnn的lldn形成了对比,后者大多是针对相机图像开发的基于cnn的cldn的改进。我们观察到,基于cnn的LLDNs不适合在激光雷达点云中检测车道线。例如,前视图图像上的车道线厚度随着与自用车辆的距离而减小,并走向相同的消失点(在直线道路上),而纯电动汽车图像中的车道线厚度不变,并在整个纯电动汽车图像上平行延伸。与我们提出的LLDN-GFC相比,基于cnn的车道检测网络并没有很好地利用激光雷达点云中车道线的这些空间特征。提出的LLDN-GFC可以通过Transformer[4]和Mixer[24]块实现,对车道线进行有效的全局特征关联。实验结果表明,本文提出的基线性能优于使用传统CNN的LLDNs。本文的贡献可以概括为:

  • K-Lane:我们引入了世界上第一个和最大的(15382帧)公共激光雷达车道数据集,用于各种条件和场景下的城市道路和高速公路。
  • 我们还为训练、评估、注释和可视化提供了一个完整的开发套件。
  • 我们展示了Lidar点云中的车道线具有传统RGB图像中没有的特殊特征,并提供了合适的基线网络,我们称之为LLDN-GFC,它在f1评分上明显优于使用传统CNN的lldn。

本文的组织结构如下。第2节介绍了与本文和本文主题相关的先前研究,第3节介绍了K-Lane数据集,以及拟议的基线LLDN-GFC。第4节展示了实验设置和结果。我们在第5节中得出结论,并介绍了数据集和基线的更多信息,如附录中LLDN-GFC的详细网络结构。

2. 相关的工作

车道检测数据集和基准测试。上发现,
深度学习等数据驱动的方法已经实现了
seentremendousadvancements inrecentyears。Onekey en -
更能实现这种进步的是大的可用性
公共车道数据集,如表1所示。TuSimple [25]
这是最早公开的基于摄像头的车道之一吗
数据集。它有6408帧收集在高
在白天。数据集进一步分为3,626个
用于训练的帧,358帧用于验证,2782帧
帧进行测试。CULane[16]引入了更多样化的
挑战基于摄像头的车道数据集,有133,235个
分为88,880帧用于训练的帧数,
9675帧用于验证,34680帧用于测试。
CULane提供多样化的驾驶条件,无论是在城市
和高速公路环境一样,在白天和黑夜里,和一起
各种道路结构。相比于充满活力的领域
基于摄像头的车道检测,激光雷达车道检测数据集
还没有被充分探索过。最早的激光雷达之一
车道数据集是DeepLane[1],包含55168帧
激光雷达和相机数据收集的城市和高
环境的方式。另一个数据集,RoadNet[14],由
仅在高速公路上采集的5200帧激光雷达数据
环境。不幸的是,这两个数据集都不是公开的
lic,就像这样没有很多衍生作品的激光雷达巷探测
已经进行过了。相比之下,我们建议的数据集,
K-Lane,包含15382帧激光雷达和相机数据,
收集在城市和公路环境。当我们
把k巷公布于众,我们就为一项新研究铺平了道路
基于激光雷达的车道探测方法。
面向摄像机的车道检测网络。标签凸轮,
在那里,各种道路的时代数据集[16]变得可用
已经是cldn的一个重大进步。Com -
与早期的基于规则的技术[2,3],cldn相比较
更能适应各种道路环境。在这些
技术上,车道预测是基于局部特征的
提取了CNN[6],性能得到提高
车道检测头利用车道线的特征。
例如,Qin等人[18]提出了一种逐行检测
基于网络,将整个图像划分为网格,并
从每一排网格中识别车道。Liu等
提出了一种两级车道检测网络
条件卷积[30]与行级的detect -
实现了SOTA性能
在一些数据集。然而,cldn有一些固有的
问题。在CULane基准测试中,大多数cldn
显示晚上的性能显著下降(约20%)
时间和耀眼的光条件从他们的白天每-
(13、18)表现。
EarlyLaneDetectionTechniquesforLidar。Inearlystud -
通过阈值法检测车道点
强度(或反射)。Lindner等人[12]使用固定的
极地网格地图存储点强度和过滤巷
沿方位角有阈值的候选者。她- - - - - -
Nandez等人[7]引入了一种集群方法,其中
使用DBSCAN[5]对过滤后的车道点进行聚类。——如何
这些启发式技术依赖于预先定义的阈值
而压片参数,因此对它的适应性不是很好
不同的环境。
用于激光雷达的车道检测网络。基于深度学习
激光雷达的车道探测研究一直没有得到积极的应用
由于没有大型的开放数据集,而只有
介绍了利用他们的私人激光雷达数据集进行的一些研究
在文献中。Bai等人[1]提出了一个LLDN
结合了用激光雷达点云开发的二维BEV图像
并对前端摄像头图像进行车道检测。和3月-
[14]提出了一种基于cnn的LLDN
点云的BEV图像来检测自我车道,并进行测试
在不拥挤的高速公路上的网络。
Self-Attention愿景。自我关注是一种领导力
一种更加注重神经网络补丁的方法
输入图像,两者之间存在高度相关性
得分。卷积块注意模块(CBAM) [28]
引入了每个通道和每个空间的自我关注机制
通过加入MLP (Multilayer Perceptron)和convolu-分别tionaloperations tothetraditionalCNN-based
特征提取器。因为Transformer[26]是重要的
应用改进自我注意机制
三个独立的mlp用于查询、键和值(即
变压器块),它已经被积极地用于图像
和点云。例如,ViT (Vision Transformer)
[4]大大提高了图像分类性能
ing变压器,其中ViT将输入图像分割成单位
补丁,并将Transformer编码器应用于每个补丁
图像分类。然而,ViT雇佣了三个独立的
降低每一种注意力机制的MLPs
计算成本和模型规模大是不可避免的。在
另一方面,MLP-Mixer[24]实现注意
具有简单MLP方案的机构(即混合器块),
这导致一个小的模型大小和快速推断
可达到与ViT相当的性能。
图2。k车道的数据分布(以数据帧数为单位)。中间的饼状图显示了道路类型的数据分布
(即城市道路或高速公路)、时间(即白天或晚上)和使用(即培训或测试)。左边的四个饼状图(用于训练)
右图(用于测试)显示了六种车道遮挡水平下的数据分布(从零车道到六车道)
车道形状(平缓曲线、急剧曲线和合并)。

3.K-Lane和LLDN-GFC

在本节中,我们介绍K-Lane数据集、基准测试、
以及拟议基线LLDN-GFC。

3.1. K-Lane

K-Lane是第一个大型开放的激光雷达lane数据集
由激光雷达点云及其对应的RGB组成
适用于各种条件下的城市道路和高速公路
如图1所示。
数据分布。如图2所示,共有
其中15382个数据帧,分为7687帧进行训练
和7695帧进行测试。每一组包含各种道路
条件和具有挑战性的场景包括(a)不同的
光照条件如昼夜时间,(b)拥挤
车道被其他车辆阻塞的交通,以及©合并
Ing(收敛,发散)和弯曲的车道,这是皮毛
分为平缓曲线和尖锐曲线。请注意,
k车道最多有6个车道,遮挡被划分
分为0,1,2,3,和4 ~ 6 6层闭塞
车道。基准套件提供了cal-的评估工具
计算每个条件下的指标,并给出条件
在一个明确的标准下,每一帧都有注释,
附录A中有描述。
传感器套件。K-Lane使用Ouster OS2-收集
64激光雷达传感器[15],最大有64个通道
射程240m,放置在车顶、车前
摄像头的1920×1200分辨率,如图3-所示
a.前摄像头图像已仔细校准
激光雷达点云,很容易可视化
是否可以进一步进行多模式车道检测研究
传感器。
数据集的发展。地面真相标签是亲
将激光雷达点云投影到BEV, thresh-
控制强度测量来提取关键点(即,
候选车道线),并绘制一个像素宽的线
如图3-b所示。因此,高分辨率
准确的标签,这是至关重要的深
上优于方法。
指标。对网络进行规范化的评价
在开发过程中,我们选择使用f1评分指标
同时评估置信度和分类
车道的像素存在和逐像素正确分类
巷,分别。F1度规表示谐波
查准率和查全率之间的平均值,可以表示为
F1 =
1
1
精度
+
1
回忆

TP
Tp + 0.5(fp + fn),
(1)
其中TP、FP和FN是真阳性的数量,
假阳性和假阴性的输出的de-
分别tection头。因为车道的宽度在
标签只有一个像素宽,我们最多允许一个像素
预测和标签之间的偏差。这是com -
比喻在CULane[16]中使用的评价指标
数据集,其中车道线标签为30像素宽,且为true
当预测和地面真实时,积极计数
至少有0.5的借据
为了形式化地描述评价指标,设x conf∈
R M×N beconfidence emaplabelwithm numberofros
, N列,x conf
m, n
∈{0,1}。进一步的,
更多,设ˆx conf∈R M×N为置信图预测-行数为M,列数为N,
与x相依
m, n
∈[0,1]。此外,我们还定义了网格neigh-
以网格x m,n为中心的邻域为一组网格{xi,j |i =
{m−1,m,m + 1},j = {n−1,n,n + 1}}。

假设将阈值操作应用于
置信度图预测
ˆx相依,用力推
m, n


1ˆx conf
m, n

σ相依
0,否则
, (2)
其中σ conf是预测的置信阈值
被认为是车道点。在我们的评价指标中,a
如果对一个正的预测(像素值
= 1)在ˆx conf,thr
m, n
在美国,至少存在一个积极的因素
标签位于以x conf为中心的网格附近
m, n。共同
节,ifthereisnopositivelabelatthegridneighborhood
这个预测被认为是假的。falsenegative oc -
对于x conf上的正标签,Curs if
M n,没有正数的前项
以ˆx conf,thr为中心的网格附近的措辞
m, n

对于分类预测,我们将分类-
将阳离子映射标签转换为一热编码标签。此外,
我们还将分类预测图转化为
其中热编码类的预测用高
Est概率赋值为1,其余赋值为

  1. 的真阳性,假阳性和假阴性
    利用pre-可以计算出分类预测结果
    在前面提到的程序中,积累了每一种可能
    祝福类。
    分类的f1分是对网络的评价
    作品基于车道线定位和车道类
    预测。因此,f1分在分类上是严格的
    评估指标,结果是性能下降
    是否可以为所有模型找到比前的信心
    ,如表2所示。
    完成Devkits。此外,我们提供了一个理解-
    K-Lane的全面开发套件,包括培训、评估、
    数据集开发和可视化。特别是,数据
    开发工具,如标签和注释工具,
    通过图形用户界面(GUI)提供
    易于使用的。Thisenablestheresearchcommunitytoreadily
    增加数据集,不管激光雷达传感器模型,
    从而激活具有不同数据集的LLDN区域
    和基准,以及CLDN。附录A提供了一个
    所有细节的完整描述。
    总结。总之,与常规车道相比
    检测数据集,K-Lane具有多种优势;(1) K -
    Laneiscollectedinurbanroadsandhighwaysundervarious
    条件和场景,而TuSimple
    [25]和RoadNet[14]只包含高速公路,(2)K-Lane
    用精确的车道位置区分车道类和标签
    tion(像素级),而TuSimple[25]和DeepLane [1]
    (3) K-
    车道有更多的标记车道(例如,最多6条)
    而TuSimple[25]和CULane[16]只有
    (4)首先,其中
    激光雷达lane数据集,K-Lane是唯一公开可用的
    数据集,允许更多的研究基于激光雷达的lane de-
    进行检测。此外,校准良好
    相机图像也可用于未来的多
    模态车道检测。

3.2. LLDN-GFC

在本节中,我们将重点放在LLDNs基线的总体结构和必要性上,而细节,如准确的神经网络结构、函数(即图4中的(1)~(5))和损耗的数学表达式,将在附录b中描述。如图4所示,提出的基线由BEV编码器、作为骨干的GFC和车道检测头组成,这些将在接下来的小节中介绍。
在这里插入图片描述

图4. LLDN-GFC的总体结构。有5个函数:(1)、(2)、(3)、(4)、(5)分别表示BEV编码器reshape & per-patch线性变换Transformer或混合器块reshape & shared MLP检测头。Hbev、Wbev、Cbev、Cout、Np2和Cp分别为伪bev图像的高度、宽度、通道数、输出伪bev图像的通道数、总patch数和全局关联中每个patch的通道数.
在这里插入图片描述

图5。CNN和本文提出的GFC之间的全局特征相关性比较,其中N0, N1, N2和C0, C1, C2表示三层特征图的大小和通道数,按深度排序。(a)计算全局相关性的两个分离网格的例子,(b)由CNN开发的特征地图中包含的两个网格,以及©由GFC开发的特征地图中两个网格的相关性。

BEV编码器。BEV编码器将一个三维点云投影到一个二维伪图像中,并对其进行进一步处理,产生一个二维BEV特征图。我们为LLDN-GFC提供两种不同的BEV编码器,即点投影编码器和柱式编码器。

主要的BEV编码器是点投影器,它将点云投影到x-y水平面和使用CNN生成BEV特征图。为了同时保持高分辨率的车道信息和实时速度,我们设计了一个基于ResNet的CNN来输出一个特征图,它是伪图像输入的1/82
另一种低计算量的2D BEV编码器是基于Point Pillars的柱式编码器,它的网络尺寸相对较小,[13]。柱式编码器的性能略低,但推理速度比基于cnn的点投影仪快。因此,在本文中,柱式编码器被提出作为一种实时应用的替代方案。详情见附录B。
GFC主干网。如图5-a所示,道路上的车道线很细,沿着整个点云延伸,只占用少量像素(即稀疏)。由于这种稀薄性和稀疏性,需要进行高分辨率的特征提取。此外,特征提取器还应考虑BEV特征图中网格之间距离的相关性。因此,我们设计了我们提出的GFC,通过利用patch-wise自我注意网络来高分辨率地计算特征的全局相关性。我们提出了GFC的两种变体:GFC- T(基于Transformer块[5]的主要方案)和GFC- M(基于混合器块[29]的低计算量替代方案)
使用patch-wise自我注意网络的一个主要优势是,它们能够发现距离较远的网格(或patches)之间的相关性,从骨干的早期阶段开始,如图5-c所示。因此,可以保留高分辨率信息(即N0 = N1)。这与基于cnn的特征提取器不同,后者在经过几层卷积和下采样后,可能会发现距离较远的网格之间的相关性,从而降低信息的分辨率。(即。N0≫N2),如图5-b所示。
在定量上,我们观察到,与基于CNN的[17]相比,基于patch的自注意力网络具有更高的性能。另外,我们将中间特征图和注意得分的定性结果分别在图6和图7中可视化。定量和定性结果进一步表明,即使在相对较少的数据(即7687训练帧)上,使用patch-wise自我注意网络进行激光雷达车道检测的适用性。
检测头和损失函数。为了设计检测头,我们将车道线检测问题定义为一个多类分割问题,其中每个像素被分配一个类和一个置信度得分。多类别车道线分割方法使检测头能够预测车道线类别和各种车道线形状,这对于自车需要规划车道间运动或识别车道合并和分离的运动规划具有重要意义。LLDN-GFC检测头由两个分割头组成,每个分割头由两层共享MLP序列组成,其中间由非线性激活函数连接。
由于每帧车道线样本的数量明显小于背景样本的数量,我们加入了soft-dice损失[22],以处理固有的不平衡问题的置信度损失。对于分类头,我们选择了广泛用于多类分类问题的网格交叉熵损失[19],引导网络在训练过程中学习最大化正确车道线类别的概率。总损失函数是soft-dice损失和交叉熵损失的总和,附录B所示。

4. 实验和对比

在本节中,我们将详细比较LLDN-GFC和传统的基于CNN的LLDNs的性能。此外,我们还论述了最近的CLDNs,以便与LLDN-GFC性能进行总体比较。

实现细节。我们评估了LLDN-GFC的两种变体,Proj28-GFC-T3和Pillars-GFC-M5,我们在实验中观测到(即附录C中的消融实验),分别具有最佳的精度和速度-精度权衡。Proj28-GFC-T3代表LLDN-GFC是28层的点投影编码器和带有三个Transformer块的GFC。Pillars-GFC-M5代表LLDN-GFC是柱编码器和带五个混合器块的GFC。
我们使用RTX3090 GPUs在K-Lane上训练60个epoch,使用批量大小为4和学习率为0.0002的Adam优化器[11]。所有训练和评估都在带有PyTorch 1.7.1[20]的Ubuntu 18.04机器上实现。

在这里插入图片描述
表2。提出的LLDN-GFC和各种基于CNN的LLDNs的F1置信度/分类得分。Enc、Shp、Occ分别代表BEV Encoder、sharp curve和occlusion case。我们展示了没有遮挡和严重遮挡(4 ~ 6条车道线被遮挡)的情况,而其他遮挡水平在附录c中给出。FPS代表每秒帧数,它代表了网络推理过程的 总体计算成本(FLOPs,数据效率等),类似于[29]中的吞吐量。注意,我们只显示探索技术的F1置信度得分。

4.1. LLDN-GFC与基于CNN的LLDN

我们考虑三种基于CNN的骨干网与本文提出的GFC进行比较,分别是RNF-S13、RNF-D23和RNF-C13,其中(1)RNF表示ResNet [8] 特征金字塔网络 (FPN) [14], (2) S13、D23和C13分别表示13层和23层的跨步卷积、空洞卷积和卷积注意力模块(CBAM:Convolutional Block Attention Module)[33]实现的残差块。通过实验(即附录C中的消融实验)也确定了对应的模型容量。采用FPN综合考虑不同层次的特征图映射,空洞卷积在不损失分辨率的情况下增加了感受野,这在现有的LLDN[17]中得到了应用。CBAM执行自我注意力机制类似于LLDN-GFC,但它采用了每通道卷积操作,这意味着它不像LLDN-GFC那样对所有patch执行全局相关性。因此,采用RNF-C的LLDN的性能低于提出的LLDN-GFC,如表2所示。
如表2所示,所提出的LLDN-GFC比基于传统CNN的不同深度骨干网LLDNs具有更好的性能。特别是,LLDN-GFC在四条或更多车道线被遮挡的情况下表现出了强大的性能。
图6显示了基于中间特征图可视化的LLDN-GFC鲁棒性的定性评估。我们可以在热图上观察到,project 28- gfc - t3 (a)和project 28- gfc - m3 (b)都明显提取出了分辨率更高的通道,尤其是在较深的层。这与©和(d)所示的基于cnn的LLDN形成对比,后者的车道往往模糊。也就是说,与基于cnn的LLDNs提取的车道特征相比,Proj28-GFC-T3和Proj28-GFC-M3提取的车道特征在背景上更有特色。此外,即使在存在遮挡的情况下,project 28- gfct3和project 28- gfc - m3也能够通过与非遮挡车道的相关性来预测车道形状,这是基于cnn的lldn中没有观察到的。
在这里插入图片描述 图6图6。车道闭塞情况下LLDN-GFC与基于cnn的lldn车道检测性能比较。四列分别为(a) project 28- gfct3, (b) project 28- gfc - m3, © project 28- rnf - c13和(d) project 28- rnf - s13的推断结果。第一行显示了推断结果在左上角有标签的前视图图像上的投影,第二行显示了对BEV点云的推断。从第三行到第五行,我们展示了沿主干的第1、2、3块输出特征图通道采样的热图(如GFC的第1、2、3个变压器块或RNF的剩余块)。附录D中介绍了各种场景的热图,如曲线和合并车道线。

4.2. LLDN-GFC关注可视化

在本小节中,我们讨论了所提出的LLDN-GFC, Proj28-GFC-T3,利用注意力分数的可视化对遮挡场景的鲁棒性。本文提出的GFC基于自我注意机制,利用数据单元之间的相关性,使网络更加关注特征图上有意义的区域。因此,通过可视化每个Transformer块产生的注意力得分,我们可以看到GFC-T3认为重要的区域,如图7所示。
从可视化中,我们可以看到,网络通过衰减非车道线(无关)特征的大小,更多地关注包含车道线的区域。随着层的加深,网络扩展其兴趣区域,表现为具有高注意力分数的区域不断增加。我们观察到,为GFC-T3使用三个变压器块足以确保自我注意机制覆盖包含车道线的点云的整个区域。此外,请注意,对于查询位置(图7中的黄色框),即使查询位置被遮挡,网络对车道线存在的区域也会产生很高的关注分数。这样的现象表明LLDN-GFC对遮挡的鲁棒性,该算法通过考虑整个点云进行预测,仍然可以准确地估计出遮挡的车道线。这对于基于cnn的LLDN可能不可能,因为LLDN的特征是通过局部卷积识别的。
在这里插入图片描述

图7。Proj28-GFC-T3注意力得分可视化。(aupper)是将推理结果投影到左上角有标签的前视图图像上,(a-lower)是在BEV点云上的推理结果和当前查询补丁(黄色框)。(b) ~ (d)分别表示BEV中的点云、车道推理结果、查询patch、标签用青色表示,GFC的block 1、block 2、block 3的注意得分用紫色表示。

4.3. LLDN-GFC与摄像机车道检测

文献中大多数最先进的车道线检测网络都是针对前视相机图像的。这意味着大多数CLDNs被训练来检测前视图中的车道线。另一方面,LLDN-GFC训练用于检测BEV地图中的车道线。此外,采集数据的环境也不同。CULane主要由城市道路的数据组成,而k lane则由城市道路和高速路的数据组成。由于这些激光雷达和相机数据集不使用相同的表示,并且是在不同的环境中采集的,所以我们不能简单地使用文献中报告的性能来比较CLDNs。
然而,最近的CLDNs显示,与白天数据相比,夜间数据的性能有显著下降。例如,CondLaneNet-Large[16]、LaneATT-Large[28]和CurveLane-NAS-L[34]在白天和夜间条件下分别下降了18.67%、20.93%和21.8%。相比之下,如表1所示,提出的LLDN-GFC几乎没有性能下降(只有0.2%的差异)。这是因为激光雷达对光照条件具有鲁棒性,这表明LLDN在自动驾驶中是一个可靠的功能。

5. 结论

在这项工作中,我们介绍了K-Lane数据集,据我们所知,它是第一个用于激光雷达车道线检测的公开可用数据集。K-Lane由超过15K在多样化和具有挑战性驾驶环境下的高质量标注的激光雷达数据组成,以及校准良好的前视RGB图像。驾驶场景包括多种光照(白天和夜间),车道遮挡(最多6条被遮挡的车道线),和道路结构(合并、分流、弯曲车道)。此外,我们还提供开发工具包为K-Lane包括标注、可视化、训练和基准测试工具。我们还介绍了一个基线网络用于激光雷达车道线检测,我们称之为LLDN-GFC。LLDN-GFC利用自我注意机制,通过全局关联提取车道特征,与传统的基于cnn的LLDNs相比,显示出优越的性能。此外,我们还展示了激光雷达车道线检测的重要性,与基于摄像头的车道检测网络相比,在白天检测和夜间检测之间,性能几乎没有下降。因此,我们希望本研究能为激光雷达车道线检测领域的进一步研究铺平道路,及提高自动驾驶的安全性

猜你喜欢

转载自blog.csdn.net/qq_39506862/article/details/125646165