TPVformer使用多相机图像输入来生成周环境的占据栅格;并且网络训练只需要使用稀疏的激光点云进行监督训练。
文章地址:
https://arxiv.org/pdf/2302.07817.pdf
1 前言
当前以视觉为中心的自动驾驶感知算法主要在BEV空间下特征来表达3D场景;BEV方法对比voxel类的方法拥有更好的效率,但是却难以在一个BEV平面下精细的描述无图的三维结构;因此为了解决这个问题,作者提出了TPV(tri-perspective view)模块来从物体的三个垂直面的视角来对物体进行编码。为了将图像特征升维到TPV空间中,提出了基于transformer的TPV encoder来高效的获取TPV特征,然后对物体在空间中的每个点