一个3D车道线检测方法PersFormer及其开源OpenLane数据集

来源丨计算机视觉深度学习和自动驾驶

arXiv上2022年3月论文“PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark“ ,作者来自上海AI实验室,以及几所高校。

490429143eb2c6495fb4b584b4e8975d.png

最近3D车道检测方法出现,解决许多自动驾驶场景(上坡/下坡、颠簸等)中车道布局不准确估计的问题。之前的工作在复杂环境下很困难,因为前视图和鸟瞰视图(BEV)之间的空间转换设计过于简单,并且缺乏真实的数据集。针对这些问题,作者提出PersFormer(Perspective Transformer):一种端到端的单目3D车道检测器,其中有一个基于Transformer的空间特征转换模块。模型以摄像机参数为参考,通过关注相关的前视图局部区域来生成BEV特征。PersFormer采用统一的2D/3D锚点设计和加入一个辅助任务来同时检测2D/3D车道,增强了特征一致性,分享了多任务学习的好处。此外,该文发布了最早大规模真实世界3D车道数据集的一个,称为OpenLane,具有高质量的注释和场景多样性。OpenLane包含20万帧、超过88万条实例级车道、14个车道类别(单白色虚线、双黄色实体、左/右路边等),以及场景标签和路线邻近目标(CIPO)注释,以鼓励开发车道检测和更多与工业相关的自动驾驶方法。OpenLAN数据集以及百度Apollo有的3D车道合成数据集,在3D车道检测任务中,PersFormer显著优于竞争的基准算法,并且在OpenLAN的2D任务中也与最先进的算法相一致。

该项目网页:https://github.com/OpenPerceptionX/OpenLane.


如图所示是直观介绍从(a)中2D到(b)中BEV执行车道检测的动机:在平面假设下,车道将在投影BEV中分叉/汇聚,考虑到高度的3D解决方案可以准确预测这种情况下的平行拓扑结构。

4382b7ea89e6ad376f0f7095773518e5.png

首先,将空间特征转换建模为一个学习过程,该过程具有一种注意机制,捕获前视图特征中局部区域之间以及两个视图(前视图到BEV图)之间的交互,从而能够生成细粒度的BEV特征表示。该文构建了一个基于Transformer模块来实现这一点,同时采用了可变形的注意机制来显著降低计算内存需求,并通过交叉注意模块动态调整keys,捕捉局部区域的显著特征。与通过逆透视映射(IPM)进行的直接1-1变换相比,生成的特征更具代表性和鲁棒性,因为它关注周围的局部环境并聚合相关信息。

如图是整个PersFormer流水线:其核心是学习从前视图到BEV空间的空间特征转换,关注参考点周围的局部环境,在目标点(target point)生成的BEV特征将更具代表性;PersFormer由自注意模块组成,用于与本身BEV查询进行交互;交叉注意模块从基于IPM的前视图特征中获取key-value对,生成细粒度BEV特征。

39cd2d16641c78be5258ee190e8ba8c5.png

这里主干网将resized图像作为输入,并生成多尺度前视图特征。主干网采用了流行的ResNet变型,这些特征可能会受到尺度变化、遮挡等缺陷的影响,这些缺陷来自前视图空间中固有的特征提取。最后,车道检测头负责预测2D和3D坐标以及车道类型。2D/3D检测头被称为LaneATT和3D LaneNet,其中对结构和锚点设计进行了一些修改。

如图所示是交叉注意中生成key:BEV空间中的点(x,y)通过中间态(x′,y′)投射前视图中的对应点(u,v);通过学习偏移量,网络学习从绿色矩框到黄色目标参考点之间的映射,以及相关的蓝色框作为Transformer的key。

72ec789bd0ac6ff1bae09a5513cb36e9.png

进一步的目标是统一2-D车道检测和3-D车道检测任务,采用协同学习(co-learning)进行优化。一方面,透视图中,2D车道检测仍然作为大家的兴趣;另一方面,统一2D和3D任务自然是可行的,因为预测3D输出的BEV特征来自2D分支中的对应项。

如图是在2D和3D中统一锚点设计:首先在BEV空间(左)放置策划的锚点(红色),然后将其投影到前视图(右)。偏移量xik和uik(虚线)预测真值(黄色和绿色)到锚点的匹配。这样就建立了对应关系,并一起优化了特征。

be0d848110d2725e4922a43c28639319.png


如表是OpenLane和其他基准线的比较:

3e4d4803c053e2a70e58667ccd54cc3b.png

构建真实世界的3-D车道数据集面临的挑战主要在于一个精确定位系统和遮挡。该文比较几种流行的传感器数据集,将3D目标注释投影到图像平面,并使用基于学习算法或SLAM算法构建3D场景图。如图是OpenLane和其他车道线数据集在标注上的比较:

d579318989e4a7389e0672726f0493c4.png

OpenLane的车道线标注例子:

88488cec3df5328fdf29924dee60d83d.png

实验结果如下:

07f46749976de1d80bbecaf63f09943d.png

90127225128641d35763f9bcde599d4b.png

c114ed154096664e8f07c2c94e3a847e.png

2a557b215979fb77ec0b238ed962e85d.png

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

3b80155126898d6d96a2456f516a5332.png

▲长按加微信群或投稿

b4a2d45dfe7645ed9991fe28a994e7b2.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

801f34e8165c9c585979e931fcee27e8.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  53b443402d1834cbbff8836fc2a778c9.gif

猜你喜欢

转载自blog.csdn.net/Yong_Qi2015/article/details/124138368
今日推荐