CVPR2024自动驾驶挑战赛介绍！端到端/世界模型/Occ/无图感知等六项

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

>>点击进入→自动驾驶之心【Transformer】技术交流群

CVPR2024自动驾驶挑战赛公开版征求意见开始啦！这次主要涉及视觉语言模型、仿真、端到端、世界模型、Occupancy和Flow、无图驾驶六个领域，大家如果有任何想法可以在下面文档编辑提出，截止至1月15日。

详情请扫描图中二维码或访问：

https://docs.google.com/document/d/1WCk1C2EngRyn4vK8djxSjNfryZx4Y7erqpxwg1HKisM/edit?usp=sharing

https://docs.qq.com/doc/DTkRUdGtvSE1WWUxQ

进入文档即可批注，期待大家的反馈

1）Driving with Language

DriveLM结合语言信息，将大型语言模型（LLM）和自动驾驶系统连接起来，并最终引入LLM的推理能力，以做出决策并确保可解释的规划。给定多视图图像作为输入，模型需要回答涉及驾驶各个方面的问题。

● 组织者
OpenDriveLab, University of Tubingen

● 数据集
DriveLM-nuScenes, https://github.com/OpenDriveLab/DriveLM

● 输入
multi-view images from 6 cameras questions in text

● 输出
answers in text (perception-prediction-planning) planning behavior (behavior)

● Evaluation Metric

● VQA metrics
CIDEr (Consensus-based Image Description Evaluation) GPT-Score

● Classification accuracy of multiple choice questions and planning behavior

2) CARLA Autonomous Driving Challenge

为了验证AD系统的有效性，我们需要一个具有闭环设置的最终规划框架。CARLA AD排行榜要求agents通过一组预定义的路线行驶。对于每条路线，agent将在起点进行初始化，并被引导开车前往目的地，通过GPS坐标、地图坐标或路线说明提供路线描述。路线的定义有多种情况，包括高速公路、城市地区、住宅区和农村环境。排行榜在各种天气条件下评估AD agents ，包括白天、日落、下雨、雾和夜晚等场景。

● 组织者

CARLA Team, Intel/NVIDIA

● 数据集

CARLA Simulator, https://leaderboard.carla.org

● 输入

data from GNSS, IMU, LiDAR, RADAR, RGB camera, Speedometer, (optional OpenDRIVE map)

● 输出

Vehicle Controls (Steer, Throttle, Brake)

● 评测Metric

Driving score Route completion

● Infraction penalty

3）End-to-End Driving at Scale

与2023年新计划挑战赛相比，这条赛道禁止直接访问地图信息，新设计的PDM仿真和评分超出了端到端自动驾驶框架的开环评估。

● 组织者

University of Tuebingen, NVIDIA, University of Toronto

● 数据集

OpenScene, https://github.com/OpenDriveLab/OpenScene

● 输入

multi-view images from 8 cameras, LiDAR, ego state, navigation command

● 输出

future trajectory (8 seconds, 10Hz)

● Evaluation Metric

PDM score

4）Predictive World Model

世界模型可以基于当前状态预测未来状态。世界模型的学习过程有可能将预先训练的基础模型提升到一个新的水平。给定仅视觉输入，神经网络在未来输出点云，以证明其对世界的预测能力。

● 组织者

OpenDriveLab

● 数据集

OpenScene, https://github.com/OpenDriveLab/OpenScene

● 输入

multi-view images from 8 cameras

● 输出

LiDAR points within the next 3.0s, evaluated at 2Hz

● Evaluation Metric

Chamfer distance

5）Occupancy and Flow

三维边界框的表示不足以描述一般目标（障碍物）。相反，受机器人学概念的启发，我们将一般物体检测视为一种占用表示，以覆盖形状更不规则的物体（例如，突出的物体）。该任务的目标是在给定来自六个相机的输入图像的情况下，预测完整场景的3D占有率和前景目标的Flow。

● 组织者

Motional

● 数据集

OpenOcc, https://github.com/OpenDriveLab/OccNet

● 输入

multi-view images from 6 cameras

● 输出

voxelized 3D space occupancy, with flow per foreground grid

● Evaluation Metric

Occupancy: mIoU without invalid grid. Invalid grid is defined as invisible grid in camera perspective view.

Occupancy Flow: L2 distance, considering foreground grids only.

Warped Occupancy (Main metric):

使用下一个时间戳的占用GT来计算mIoU

6）Mapless Driving

没有高清地图的AD需要更高水平的活动场景理解，这项挑战旨在探索场景推理能力的边界。神经网络以多视图图像和标准清晰度（SD）地图为输入，不仅可以提供车道和交通元素的感知结果，还可以同时提供车道之间、车道与交通元素之间的拓扑关系。

● 组织者

OpenDriveLab

● 数据集

OpenLane-V2 subset-A, https://github.com/OpenDriveLab/OpenLane-V2

● 输入

multi-view images from 7 cameras, optional SD map

● 输出

vectorized lane segment, 2D traffic element, topology (lsls, lste)

other map elements

● Evaluation Metric

OpenLane-V2 Uni-Score

https://github.com/OpenDriveLab/OpenLane-V

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！