MV-Map论文研读

MV-Map

MV-Map: Offboard HD-Map Generation with Multi-view Consistency

论文:https://arxiv.org/pdf/2305.08851.pdf

code:https://github.com/ZiYang-xie/MV-Map

代码未开源

总体网络结构

image

简述

论文首次提出以非车载的方式产生高精度地图。可以视为在HDMapNet的优化版本,多三阶段网络,非端到端的,融合多帧图像。

首先以连续多帧周视图像作为输入,经过backbone+encoder+decoder获得各帧特征图和语义地图。其次,论文利用a voxelized neural radiance field(Voxel-NeRF)对输入的多帧图像进行三维重建,可以有效解决某帧图像中车线被遮挡的问题。

image

然后,论文提出一个不确定性网络(a uncertainty network),对于BEV 中任意坐标点(x,y),获取其在图像坐标系下的坐标点,Voxel-NeRF可以利用该坐标点得到3D位置坐标。将BEV下坐标点和三维重建后的3D位置坐标做差值,可以两者的一致性。网络最终输出置信度分数。

image

结合置信度分数最终生成高精地图。

训练和推理

Onboard Model

采用resnet50+SimpleBEV encoder+HDMapNet decoder网络结构,最终输出BEV特征和语义地图。该模型独立训练。

Voxel-NeRF

训练nuscenes数据集中全部的850个场景,包括训练集和测试集。训练迭代30000次,平均每个场景在一个A40GPU上训练需要15分钟。该模型独立训练。

Uncertainty Network

训练nuscenes其中的50个场景数据,验证集为nuscenes中全部验证集(150个场景)。在训练时,输入是5帧数据,推理时为一个小视频流。在一个A100GPU上,训练5个epochs花费大概30分钟。

结果

MV-Map与HDMapNet的比较

image

MV-Map在正常天气和雨天的比较

image

MV-Map和HDMapNet在IOU上的比较

image

video

git上的演示视频,链接。

https://www.youtube.com/embed/SN14oTyMFrk

猜你喜欢

转载自blog.csdn.net/qq_44846512/article/details/131597076