BEVFusion（mit）

最近因为项目和论文的需要，要在bev下传感器融合感知上做点事情。由于这个领域还比较新，成果不多。准备系统学习一下。对于关键词传感器融合&BEV，如果放在一起那确实是挺窄的方向，但凡去掉一个关键词，都是一个热门的大方向。比如传感器融合感知，就有很多种融合方法，各种融合类型。而BEV感知也是这样，因为还有LiDAR BEV和Camera BEV。所以今天就犯了一个错误，总觉得怕自己学的不够全面，又想看BEV融合，但同时又不想错过各个领域的好方法，于是还emo了一会。后来想通了，先从重要的看，即最核心的。因为这些方法的产生也是别人从各自领域的方法中筛选出来的。如果有时间或有需要，再去深入各自领域的内容。

因此我就从“BEV下传感器融合感知”这个关键词开始学起。今天记录一下标杆论文BEVFusion。这是MIT在2022年中旬的一篇文章，发表在CVPR。处于效率考虑，只记录问题、方法、特色这三点，因为这三点才是核心。

1.存在的问题

目前自动驾驶用上了各式传感器，好的融合对可靠的感知具有意义。融合时存在问题，当把点云投到图像上面时，产生几何失真。图像投到点云，语义丢失。因此可以把它们统一投射到一个合适的空间在进行融合，那就是BEV。对谁都友好，既保留了点云的几何信息，也保留了图像的语义信息。

2.我们的方法

对于相机流数据的处理，采用的步骤是提取特征并转换到BEV空间；对激光流就比较简单了，直接用voxelnet就可以了。然后把得到的两种BEV特征利用全卷积的方法进行融合。

1.图像的处理

首先利用swin-t提取相机的特征，然后利用lss把图像空间的特征转变为BEV空间下的特征，具体做法是先利用估计得到图像的深度，再根据深度得到投射到空间中的伪点云特征。然后再利用池化压缩到BEV空间，在这一步中遇到了问题，池化时由于数据量太大导致效率低。解决方法是采用预计算和间隔减少来降低延迟和减少计算。

2.点云的处理

直接用voxelnet

3.全卷积融合

为了避免特征在转变为BEV时产生的误差导致的融合不准确，利用带有残差的卷积BEV编码器来融合特征，补偿失调。

4.多任务检测头

可以目标检测和地图分割

猜你喜欢