【论文简述】GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow(arxiv 2022)

一、论文简述

1. 第一作者:Zhiyang Lu

2. 发表年份:2022

3. 发表期刊:arxiv

4. 关键词:Scene Flow, Point Clouds, Transformer, Motion Occlusion

5. 探索动机:目前的方法在非遮挡数据集上取得了很好的效果,但它们无法推断出遮挡物体的运动信息,这将导致在大规模遮挡场景中场景流的偏离,如在大规模traffic jams中。

遮挡定义:The occluded points in the scene flow task exist in the first frame (source) point cloud. We define it as a set of points without corresponding points and/or corresponding patches in the second frame. Furthermore, We divide occluded points into two categories: the first category has non-occluded points in local areas of the first frame point cloud, and these points are called local occluded points. The second kind of point is global occlusion points, where there are no non-occluded points in their local areas.

6. 工作目标:解决遮挡问题。

人类处理遮挡的方式:Humans often employ self-correlation when deducing the motion of occluded objects in dynamic scenes. For example, without considering collision, we can infer the motion information of the occluded head of the same vehicle from the tail. Therefore, the self-correlation of motion is very significant to solve the occlusion problem in scene flow.

7. 核心思想:受GMA的启发,将Transformer框架集成到场景流任务中,利用点云特征的自相似性聚合运动特征,获得被遮挡点的运动信息。遗憾的是,GMA只从全局角度考虑运动特征,没有考虑运动的局部一致性,这可能会导致局部遮挡点的错误运动

  1. We propose a transformer-based framework to address the problem of motion occlusion in scene flow.
  2. To consider the local motion consistency at the same time, we design the LGSM module to calculate the local and global self-similarity matrices, and then apply the offset generator to aggregate the motion features of the non-occluded points with self-similarity to the occluded points.
  3. We demonstrate that the GMA3D module reduces the local motion bias by aggregating local and global motion features, which is also beneficial for non-occluded points.

8. 实验结果:

Experiments have shown that our GMA3D module has achieved good performances in the accuracy of scene flow tasks, whether in the case of occluded or non-occluded.

扫描二维码关注公众号,回复: 14761066 查看本文章

9.论文下载:

2210.03296.pdf (arxiv.org)

https://github.com/O-VIGIA/GMA3D

二、实现过程

1. 背景知识

我们将场景流视为一个三维运动估计任务。输入连续两帧点云数据PCtPCt+1,输出PCt第一帧中每个点的三维向量Flow,表示如何移动到第二帧的相应位置。

GMA3D模块的主干架构是PVRAFT。整体网络图如下所示。与之前的从粗到细方法不同,PV-RAFT在特征提取和场景流估计中放弃了下采样,直接推断出高分辨率点云场景流,既避免了早期步骤误差计算,又能捕捉快速运动物体的运动信息。为了减少内存消耗,PV-RAFT对连续两帧的点云之间的相关图进行截断,只计算目标点云中与源点云相似度最高的前K个点的代价体。因此PV-RAFT采用点-体素策略计算源点云的代价体。在点层面,采用KNN方法寻找目标点云附近的点进行短距离位移。在体素级,基于源点云对目标点云中的点进行体素化,以获取长距离位移。然后,将点云上下文特征与代价体一起输入到基于GRU的迭代模块中,以估计残差流。最后,在改进模块中对流特征进行平滑处理。但是PV-RAFT在处理数据集时去掉了遮挡点,因此无法解决场景流中的遮挡问题。

GMA3D模块的输入是第一帧点云的上下文特征和运动特征,输出是局部和全局聚合的运动特征。将这些聚合的运动特征与上下文特征和原始运动特征进行连接,然后将连接后的特征输入残差流估计的GRU,最后通过改进模块进行细化。

2. 概述

对未知信息的推断往往依赖于已知的方法。为了解决遮挡问题,我们总是需要非遮挡点的运动信息。点云的特征不能直接使用传统Transformer的注意力机制进行聚合,因为点云数据不同于有规则排列的图像数据和有语义特征的句子,它只是一个三维坐标的集合,是无序的、不规则的。受[26]的启发,将偏移发生器引入场景流任务聚合Transformer架构中点云的运动信息。

在光流任务中,GMA使用Transformer对相似像素的运动特征进行全局聚合,从而推断出被遮挡像素的运动信息。受GMA的启发,本文利用自相似方法来解决场景流的遮挡问题,这种方法从未在场景流领域使用过。通过具有共享权重的线性模型将上下文特征映射到查询和关键特征,通过另一个线性模型将运动特征映射到值特征,然后利用基于Transformer的框架聚合运动特征。

但是,GMA只依赖于全局特征的相似度来聚合运动特征,这可能会导致一些运动偏差。例如,在一个街景中有许多具有相似特征的车辆,但它们的运动可能是不同的。如果仅使用全局特征相似度进行运动信息聚合,则可能会将逆行车辆的运动错误地聚合到另一车辆的遮挡位置。因此,在解决运动遮挡问题时,还需要考虑局部运动的一致性。同一帧点云中具有相似上下文特征的点之间的相对距离越近,运动信息越一致。本文将相对距离整合到相似度图中,提出了局部 - 全局相似度图模块,分别用于聚合局部和全局运动特征。给这个模块命名GMA3D将聚合后的局部和全局运动特征与原始运动特征和上下文特征进行连接,然后输入GRU模块迭代估计场景流。GMA3D的详细示意图如下。

本文使用LGSM模块计算第一帧点云的局部和全局相似度矩阵。在LGSM模块中,通过共享权重的线性模型将上下文特征映射到查询特征映射和关键特征映射。其次,利用点积生成的注意力图,结合softmaxl1范数生成全局自相似矩阵; 然后,利用第一个点云之间的相对距离和全局自相似矩阵计算局部相似矩阵;最后,将局部和全局相似度矩阵与值编码器投影的运动特征进行加权和,通过偏移发生器输出局部和全局聚合运动特征。

3. 数学公式

qkv分别为查询、键和值投影操作符,公式如下:

其中xj ∈ N×Dc表示上下文特征,yj∈N×Dm表示运动特征,其中N为源点云的个数,DcDm分别为上下文特征和运动特征的维数。此外,Qm,Km是共享可学习线性投影。

使用q(x)k(x)将上下文信息投射到查询映射和关键映射中,并通过函数f(x,y)计算局部和全聚德相似性。然后,通过v(y)将运动特征映射为值特征,并通过局部和全局相似性矩阵分别生成局部和全局聚合运动特征。

其中N(xi)是通过KNN获得的xi的局部邻域点集合,f表示由以下操作给出:

最后,应用偏移聚合器得到局部和全局的聚合运动信息,并根据可学习系数将其添加到原始运动信息中,得到最终输出。

其中h为线性模型、批范数、relu

猜你喜欢

转载自blog.csdn.net/qq_43307074/article/details/129618085