实时车道线检测算法 | LaneATT-250FPS && LSTR-420FPS

车道线检测领域突然飞速发展，关注一下最新的两篇文章

一、Keep your Eyes on the Lane: Attention-guided Lane Detection

论文地址：https://arxiv.org/pdf/2010.12035.pdf
Github地址：https://github.com/lucastabelini/LaneATT

在这里插入图片描述

Abstract：

现有车道线检测方法在复杂的现实世界场景中已取得了卓越的性能，但是许多方法都存在运行实时效率的问题，这对于汽车的自动驾驶来说至关重要。在这项工作中，我们提出了LaneATT：基于anchor的深度车道线检测模型，类似于其他通用的深度目标检测器，该模型将anchors用于特征池化步骤。由于车道线遵循规则的模式并高度相关，因此我们假设在某些情况下，全局信息对于推断其位置可能至关重要，尤其是在诸如遮挡，缺少车道标记等情况下。因此，我们提出了一种新颖的基于anchor的注意力机制，该机制聚集了全局信息。在文献中使用最广泛的数据集对模型进行了广泛的评估。结果表明，我们的方法优于当前的最新方法，显示出更高的功效和效率。此外，我们进行了消融研究，并讨论了在实践中有用的效率折衷方案。

Introduction：

本文在Line-CNN的基础上，提出了一个速度与性能兼备的车道线检测模型。主要贡献如下：

1.在大型和复杂的数据集上，本文提出的车道检测方法比现有的最新实时方法更准确；

2.具有比大多数其他模型更快的训练和推理时间的模型（达到250 FPS的速度，并且比以前精度最高的方法的MAC少近一个数量级）；

3.一种新颖的基于anchor的车道检测注意机制，该机制在与检测到的物体相关的其他领域可能很有用。

此外，本文的车道线检测算法代码是开源/可复现的https://github.com/lucastabelini/LaneATT

LaneATT：

LaneATT如图1所示，使用从安装在车辆中的前置摄像头拍摄的RGB图像作为输入。输出是车道线。为了生成这些输出，卷积神经网络（CNN）（称为主干）会生成一个特征图，然后将其汇总以提取每个anchor的特征。这些特征与注意力模块生成的一组全局特征结合在一起。通过组合局部和全局特征，该模型可以更轻松地使用来自其他车道的信息，这在有遮挡或没有可见车道标记的情况下可能是必需的。最后，将合并的特征传递到全连接层以预测最终的输出通道。
在这里插入图片描述
A.Lane and anchor representation

Lane的anchor表征方式与Line-CNN的方式一致。如上图所示，首先将特征图均分为一定大小的网格。然后，一条lane由起始点s和结束点e，以及方向a组成。也就是一条lane由起始点按照一定方向到结束点的所有2d坐标组成。

B.Anchor-based feature pooling

两阶段的目标检测算法会把一定矩形区域的anchor特征池化到一定长度的特征，以用于后面的卷积或全连接层进行预测。对于车道线而言，因为lane的anchor表征不再是矩形区域，而是一条线。因此本文提出了如下公式：
在这里插入图片描述
式子中，x_orig，y_orig是起始点的坐标， $\theta$ 是线的角度方向。这个公式的意思也比较好理解，就是按照网格y坐标找出line上的对应x坐标，这样就可以挑出固定长度的特征出来，长度为特征图F的高度。如果出现了y对应的x点坐标在特征图外，就采用padding的方式补齐。
在这里插入图片描述
请注意，pooling操作与Fast R-CNN的感兴趣区域投影（RoI投影）类似，但是，考虑到本文的方法是单级检测器，因此使用anchor本身，而不是使用proposal 进行pooling。此外，RoI池化层（用于生成固定大小的特征）对于我们的方法不是必需的。与仅利用特征图边界的Line-CNN 相比，本文的方法可以潜在地浏览所有特征图，从而可以使用更轻量的主干和较小的感受野范围。

C.Attention mechanism

上面pooling出的特征只是车道线上的局部特征，在遇到车道线遮挡的情况下，还需要全局特征才可以更好的进行预测。因此，本文提出了一种注意力机制，该机制作用于局部特征（ $\alpha ^{loc}$ ）以产生汇总全局信息的附加特征（ $\alpha ^{glob}$ ）。

公式如2所示，对于池化得到的i和j两个anchor的局部特征，使用Latt（全连接层）去预测i和j的关系。相当于基于当前局部特征i，去预测它和其他局部特征的权重关系，然后聚合其他特征来作为全局特征。
在这里插入图片描述
D. Proposal prediction

基于上面提取到的局部特征 $\alpha ^{loc}$ 和全局特征 $\alpha ^{glob}$ 。预测分支有两个，分类分支去预测k+1个类别，k个车道线类别和1个背景类别。回归分支基于anchor的起始点s，预测出N个点的坐标与anchor的偏移，以及一个线的长度L。因此，车道线的结束点就是e = s+l-1。

E.NMS

NMS的过滤阈值采用两条车道线的公共y坐标的距离。
在这里插入图片描述

Experiments：

1.SOTA On TuSimple:
在这里插入图片描述
2.SOTA On CULane:
3.推理速度：

二、End-to-end Lane Shape Prediction with Transformers

论文地址：https://arxiv.org/pdf/2011.04233.pdf
Github地址：https://github.com/liuruijin17/LSTR

在这里插入图片描述

论文详细解读：LSTR-420fps

Abstract：

车道检测是将车道标记识别为近似曲线的过程，被广泛用于自动驾驶汽车的车道偏离警告和自适应巡航控制。流行的分两步解决问题的pipline-特征提取和后处理虽然有用，但效率低下，而且在学习全局背景和车道的细长结构方面存在缺陷。为了解决这些问题，我们提出了一种端到端方法，该方法可以直接输出车道线形状模型的参数，使用通过transformer构建的网络来学习更丰富的结构和上下文。道线形状模型是基于道路结构和摄像头姿势制定的，为网络输出的参数提供了物理解释。transformer使用自注意机制来建模non-local交互，以捕获细长的结构和全局上下文。该方法已在TuSimple基准测试中得到验证，并以最轻巧的模型尺寸和最快的速度显示了最新的准确性。此外，我们的方法对具有挑战性的自收集车道检测数据集显示出出色的适应性，显示了其在实际应用中的强大部署潜力。

Introduction:

本文提出将车道检测输出重新构造为车道线形状模型的参数，并提出使用non-local构造块构建的网络，以加强对全局背景和车道细长结构的学习。每个车道的输出是一组参数，这些参数使用从道路结构和摄像头姿态得出的明确数学公式来近似车道标记。
在这里插入图片描述

给定特定的先验条件，例如摄像机固有特性，这些参数可用于计算道路曲率和摄像机俯仰角，而无需任何3D传感器。接下来，受自然语言处理模型的启发，该模型广泛使用transformer来对语言序列中的远程依存关系进行显式建模，我们开发了基于transformer的网络，该网络总结了任何成对视觉特征中的信息，从而能够捕获车道的长薄薄的结构和全局上下文。整个体系结构可立即预测输出，并接受匈牙利损失的端到端训练。该损失在预测和gt之间应用了二分匹配，以确保一对一的无序分配，从而使模型可以消除显式的nms过程。

主要贡献：

1.本文提出了一种车道线形状模型，其参数可作为直接回归的输出并反映道路结构和摄像机的姿态。

2.我们提出了一个基于transformer的网络，该网络考虑了non-local交互以捕获车道和全局上下文的细长结构。

3.本文方法以最少的资源消耗实现了最先进的精度，并显示出对新的具有挑战性的自收集车道检测数据集的出色适应性。

Experiments：

1.SOTA On TuSimple:
在这里插入图片描述
2.预测效果图：