【BEV感知】2-BEV感知算法数据形式

1 图像

图像是由相机生成的,是将三维世界中的坐标点(单位为米)映射到二维图像平面(单位像素)

图像的劣势:三维到二维映射损失了空间信息。相比点云360视角采集,车载单相机有视角局限性。

图像的优势:纹理丰富、成本低

基于图像的任务、基础模型相对成熟和完善,比较容易扩展到BEV感知算法中。

1.1 如何获取图像特征?

使用2d图像处理网络对图像进行特征提取。

在这里插入图片描述

无论是BEVFormer中的backbone还是BEVFusion中的Encoder,本质都是一样的,都是通过Resnet等已有的2d图像网络提取图像特征。

2 点云

点云的基本组成单元是点,点组成的集合叫点云。

点云特征:稀疏性,无序性,3d表征。

2.1 稀疏性

1 遮挡。导致点云数据缺失。
在这里插入图片描述
2 射线发散导致远距离采样间隔大(漏采)、近距离采样间隔小

2.2 无序性

{1,2,3,4,5} = {1,4,5,3,2}

2.3 为什么要用点云?

点云包含了深度信息。

2.4 如何提取点云特征?

无论是哪种提取方式,都不是对单个点进行特征提取(没有意义),都是采用一定的聚合方法。

例如用点云中采样单个点并不能判断出这个单独的点是车的还是人的,需要结合一定的局部空间信息进行判断。

Point-based

从已有点云中选出一些关键点,关键点(绿色)和附近点(球内黄色)
在这里插入图片描述

Voxel-based

从场景出发,将场景划分为很多个小块,聚合一定空间范围内的点。(例下面3x3网格聚合为上面一个网格)
在这里插入图片描述

3 图像+点云

猜你喜欢

转载自blog.csdn.net/guai7guai11/article/details/132090277
今日推荐