MachMap：End-to-End Vectorized Solution for Compact HD-Map Construction

参考代码：None

动机与出发点
地平线的MapTR展现出了构建高精地图的能力，但是它的机制确实是有点复杂了。为了兼容不同车道线的朝向，环形车道线的起终点等情况，针对性设计了permute-equal的匹配逻辑，这样的逻辑真的是太麻烦了。对于车道线的描述使用固定点数的方式，这样就使得对于一些车道线细节把握不到位，就是原本的均匀采样没有采样到对应区域导致不精确问题。对此这篇文章提出了一种query-based车道线检测算法，使用假设先验和关键点回归解决上述问题。这篇文章并不是正经的论文，只是参加比赛之后的一个总结。而且实际中遇到的过拟合问题一点也没说，当作一种思路借鉴就好了。

算法的结构
在这里插入图片描述
从上图看文章提出的算法大致分为：BEV特征提取、时序融合、实例解码。BEV特征提取部分是通过deformable-attn的形式得到，较为依赖内外参准确性。时序融合部分采用帧间对齐之后warp的操作，再与当前帧cat起来。解码部分采用实例分割的头，还在上面接语义分割（增强前背景区分度）和关键点回归。

如何去掉复杂匹配机制？
在MapTR中花了很大力气建立pred和GT之间的对应关系，也就是两阶段的对齐操作。这篇文章构想了一种车道线排序机制：从前往后，从左往右。那么对于一个路口的场景其中的车道线对应的真值就被描绘成了下面中间图的结果了，但是车道线的方向不得增加一个单独的预测来处理？
在这里插入图片描述

关键点如何回归？
对于车道线关键点的提取，其实就是使用距离和角度进行抽取，具体就是这俩算法：Douglas-Peucker algorithm和Visvalingam algorithm。抽取关键点之后的车道线如上图右图所示。

那么关键点怎么去回归呢？一个思路可以借鉴：PivotNet。

时序融合中预测边界歧义问题
文章设置的感知范围为 $30 m * 60 m$ ，但是图像能感知到的范围肯定是大于它的，那么由于文章的算法是引入了时序的，那就会导致真值在不同时刻下对应不一致的情况。为了处理这样的情况引入多桢proposal融合的策略，通过计算proposal之间的chamfer距离来描述相似度，将相近的proposal聚合一起，再做loss
在这里插入图片描述

实验结果
Argoverse2上的性能表现
在这里插入图片描述

MachMap：End-to-End Vectorized Solution for Compact HD-Map Construction

猜你喜欢