自动驾驶BEV感知的下一步是什么?

链接:https://www.zhihu.com/question/538920658

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

目前BEV感知似乎已经成了nuScenes/Waymo leaderboard上的主流,如纯camera的BEVFormer等,做Sensor fusion的TransFusion等,那么BEV感知还有什么可以填的坑吗?或者说BEV感知目前是否存在一个通病,学术界和工业界的关注点分别在哪里,区别是什么,需要在下一步解决?

作者:阿帆阿帆https://www.zhihu.com/question/538920658/answer/2647885390

前几天有幸去天津参与了Valse2022大会,在会场聆听了清华大学代季峰老师关于BEVFormer工作的介绍,特简要总结如下:报告摘要:随着智能驾驶落地应用场景不断延伸,系统信息表达的准确度要求进一步提升。

一个合格的智能驾驶系统,需要准确表示包括道路布局、车道结构、道路使用者等元素组成的周围环境。然而,物体的距离、场景的深度信息在 2D 感知结果上并不能得到有效呈现。这些信息才是智能驾驶系统对周围环境进行正确判断的关键。因此,3D 场景感知才是智能驾驶视觉感知的优选。最近,基于多视角摄像头的 3D 目标检测在鸟瞰图下的感知(Bird's-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。

一方面,将不同视角在 BEV 下统一与表征是很自然的描述,方便后续规划控制模块任务;另一方面,BEV 下的物体没有图像视角下的尺度和遮挡问题。如何优雅地得到一组BEV 下的特征描述,是提高检测性能的关键。我们提出 BEVFormer 环视感知的新框架,通过使用时空注意力机制学习用以支撑多种自动驾驶任务的鸟瞰图视角下的环境表征。

总体而言,BEVFormer 通过使用预定义的格栅化的鸟瞰图查询来与时间和空间特征进行交互,从而获取时空信息。为了聚合空间信息,设计了一种空间交叉注意力机制,每个鸟瞰图查询在相机视角下的相关区域提取空间特征。对于时序信息,提出时序自注意力机制从历史鸟瞰图特征中获取所需时序特征。在 nuScenes 数据集上达到了 56.9 % NDS,比之前的最好效果高了 9.0% NDS。

讲者介绍:代季峰博士,在清华大学自动化系于2009 年和2014年分别获得学士和博士学位。2012 年至2013 年间,他在加州大学洛杉矶分校访学。2014 年至 2019 年间,他在微软亚洲研究院(MSRA)视觉组工作,曾担任首席研究员、研究经理。2019 年至2022 年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。

他的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了 30 多篇论文,根据谷歌学术统计获得了20000多次引用。他于 2015、2016 年获得领域权威的COCO 物体识别竞赛一等奖,后续历届冠军系统也均使用了他提出的可变形卷积模块。他在商汤科技工作期间,曾经担任本田-商汤自动驾驶研发项目的技术负责人。他是 IJCV 的编委,CVPR 2021 和ECCV 2020的领域主席,ICCV 2019 的公共事务主席,AAAI 2018 的高级 PC 成员,北京智源人工智能研究院的青年科学家。

扫描二维码关注公众号,回复: 15689157 查看本文章

本次演讲,代季峰教授主要基于他们的BEVFormer工作进行分享。现有的image-view based方法已有的感知方案融合不同网络的输出结果,并且基于大量的规则和先验。BEV感知的介绍和难点现有的BEV是多传感器融合背景下的一种视角表达形式,BEV是一种新的feature最优表征趋势,因为其不需要考虑scale和occlusion的问题。

BEV感知的难点视角变化后的深度估计,GT数据的获取不同传感器特征融合不依赖于相机参数/Domain Adaption解决方案Transformer 将不同图片的特征按照权重投影到BEV视角下同一个位置上,而后使用transformer分别查询 spatial/temporal信息,同时该种方式还支持其他感知任务,如segmentation等任务。实验结果与应用Waymo比赛以绝对优势排名第一,远远领先于第二名。

作者:球状闪电
https://www.zhihu.com/question/538920658/answer/2942628096

现在bevformer和voxel pooling平分秋色,但是这种dense的方法感知范围都会受到算力限制。

下一步应该是基于spa‍rse表示,计算复杂度完全不会受感知范围影响。特别是sparse下的时序怎么做,因为dense feature可以很方便的做前后两帧的spatial alignment。

目前的dense方法

voxel pooling不仅仅在hw维度上dense,在depth上也dense,比较浪费计算,但是优点是把2d feature投到了所有的depth bin中,理论上不同depth上feature不同,可能会对depth估计更准。

而bevformer正好反过来,是把3d往2d投,在远处的时候,经常会出现一个ray上的3d点被投到了相同的2d点,远处经常深度估计不准,经常出现预测一串物体的现象。

关于representation

普通的2d detection,从anchor based到point based(centernet),再到detr系列,和深度学习相关的东西的本质是没有变的,变化的只是我们对问题的表示方式:representation。

bev也是如此,从后融合不同camera的3d detection,到直接从网络出来bev detection,变化的也只是representation。

对物体的表示方法,是朝着越来越精简和优雅的方向来发展的,比bev更好的representation,也是bev后面的发展方向。

所以说,bev这种方式,在于从表示方法上的创新,他该有的问题一样有,比如depth估计不准,比如长尾分布带来的corner case。

从信息论的角度

一个通信系统,包括信源,编码,信道,解码,信宿。对于神经网络来说,信源就是网络输入,编码和解码都是网络结构,信宿就是输出,可以认为没有信道,或者是一个identity的信息传输通道。

以下的任何一个模块的创新,都可以成为bev下一步的发展方向。

同样的模型,输入融合camera和lidar等多种传感器,比单纯输入camera效果要好,因为提供了更多的信息。

同样的输入,使用不同的编码,效果也不一样。比如刚才提到的bevformer和voxel pooling就是不一样的编码方式。还有MLP和IPM这两种效果不太好的。

bevformer v2,可以认为是改进的解码部分,增加了mono3d head作为decoder的一部分reference points。

如何做sparse

只说大体思路:init一组bev坐标系下的reference points(比如900个),然后投到2d points去2d feature做sample。时序,就是把这组reference points根据ego pose得到t-1的points,去t-1的2d feature上sample。

这样做原理是没有问题的,但是还有一些细节上的问题。比如ref points是随机初始化的,可能难以收敛,这个可以通过给ref points增加先验解决(可以是bevformer v2的方式,也可以是detr4d的方式,也可以直接用radar数据,这几种组合起来也许更好)。时序也存在对历史帧依赖不够的问题,想增加历史帧数,就要多做几次sample。

作者:武御峰
https://www.zhihu.com/question/538920658/answer/2992140428

BEVFormer++具有多个编码器层,除了BEV查询、空间交叉注意力和时间自注意力这三种定制设计外,每个编码器层都遵循传统的transformer结构。

BEV查询是网格形状的可学习参数,通过注意力机制从多相机视图中查询BEV空间中的特征。空间交叉注意力和时间自注意力是处理BEV查询的注意力层,根据BEV查询查找和聚合多相机图像的空间特征以及历史BEV的时间特征。


推理阶段,在t时刻,将多相机图像送入骨干网络(如ResNet101),并获取不同相机视图下的特征F_t。同时,将BEV特征B_t-1保存在前一个时间戳t-1。

在每个编码器层中,首先使用BEV查询Q通过时间自注意来查询来自先前BEV特征B_t-1的时间信息。

然后使用BEV查询Q通过空间交叉注意力来查询来自多相机特征F_t的空间信息。在前馈网络之后,编码器层生成改进后的BEV特征,作为下一个编码器层的输入。在六个堆叠编码器层之后,生成当前时间戳t的统一BEV特征B_t。

将BEV特征B_t作为输入,3D检测头和地图分割头预测3D边界框和语义地图等感知结果。


为了提高BEV编码器的特征质量,有以下三个主要方面:

(1)2D特征提取器

用于改善2D感知任务中的骨干表示质量的技术也最有可能改善BEV任务的表示质量。为了方便起见,在图像主干中采用了在大多数2D感知任务中广泛使用的特征金字塔。2D特征提取器的结构设计,如最先进的图像特征提取器、全局信息交互、多级特征融合等,都有助于更好地表示BEV感知的特征。除了结构设计外,监督骨干的辅助任务对BEV感知的性能也很重要。

(2)视图转换

该转换引入图像特征,并将其重新组织到BEV空间。超参数包括图像特征的采样范围、频率,以及BEV分辨率,对BEV感知性能至关重要。采样范围决定了图像后面的视锥体有多少将被采样到BEV空间中。默认情况下,该范围等于激光雷达标注的有效范围。当效率具有更高的优先级时,视锥体的z轴上部可能会受到损害,因为它在大多数情况下只包含诸如天空的不重要信息。采样频率决定了图像特征的效用。更高的频率确保了模型以更高的计算成本准确地对每个BEV位置的相应图像特征进行采样。BEV分辨率决定了BEV特征的表示粒度,其中每个特征都可以精确地追溯到世界坐标系中的网格。需要高分辨率才能更好地表示交通灯和行人等小规模物体。在视图变换中,许多BEV感知网络中也存在特征提取操作,例如卷积块或Transformer块。在BEV空间中添加更好的特征提取子网络也可以提高BEV的感知性能。

(3)时序BEV融合

考虑到BEV特征的结构,BEV空间中的时间融合通常利用自车的姿态信息来对齐时间BEV的特征。在这个对齐过程中,其他目标的运动没有明确建模,需要模型进行额外学习。因为了增强对其他运动主体特征的融合,在进行时间融合时增加交叉注意力的感知范围是合理的。例如可以在可变形注意力模块中放大注意力偏移的核大小,或者使用全局注意力。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

86789a8d06c9c1cbd4f6623aaf66fd8b.jpeg

猜你喜欢

转载自blog.csdn.net/woshicver/article/details/131714570
今日推荐