CVPR 2022 | TransFusion：用Transformer进行3D目标检测的激光雷达-相机融合

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：花椒壳壳 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/485971924

论文标题：TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

作者单位：香港科技大学,华为IAS BU, 香港城市大学

论文：arxiv.org/abs/2203.1149

代码：github.com/XuyangBai/Tr

具体的过程为：

（1）3D点云输入3D backbones获得BEV特征图

（2）初始化Object query按照下图左边的Transformer架构输出初始的边界框预测。初始化方法见3.2节

（3）上一步中的3D边界框预测投影到2D图像上，并将FFN之前的特征作为新的query features通过SMCA选择2D特征进行融合。

（4）输出最终的BBOX

（5）为了利用高分辨率的图像，提高对小物体检测的鲁棒性，增加了图像引导的Object query初始化。对步骤（2）进行增强。具体细节见3.6

摘要：尽管传感器融合在这一领域越来越受欢迎，但对于较差的图像条件(如照明不良和传感器不对中)的鲁棒性尚未得到充分研究。现有的融合方法容易受到这些条件的影响，主要是由于激光雷达点与图像像素之间通过标定矩阵建立的硬关联。我们提出TransFusion，一个强大的解决方案，以LiDAR-camera融合与软关联机制，以处理低劣的图像条件。具体来说，我们的TransFusion由卷积骨干和基于Transformers解码器的检测头组成。解码器的第一层使用稀疏的object queries集预测来自LiDAR点云的初始边界框，其第二层解码器自适应地将object queries与有用的图像特征融合，充分利用空间和上下文关系。Transformers的注意力机制使我们的模型能够自适应地决定从图像中获取什么信息和从什么位置获取信息，从而形成一个鲁棒和有效的融合策略。此外，我们还设计了一种图像引导的query初始化策略来处理点云中难以检测的对象。

1. Introduction

在nuScenes和Waymo上，LiDAR-only 方法要比多模态的方法效果好。但是很显然，光靠LiDAR是不够的，有些小物体就几个点，很难识别，但是在高分辨率的图像上还是比较清晰可见的。目前的融合方法粗略分为3类：结果级、提案级和点级。

result-level：FPointNet，RoarNet等。

proposal-level：MV3D，AVOD等。由于感兴趣区域通常含有大量的背景噪声，这些粗粒度融合方法的结果并不理想。

point-level ：分割分数：PointPainting，FusionPainting，CNN特征：EPNet，MVXNet，PointAugmenting等。

尽管有了令人印象深刻的改进，这些点级融合方法仍存在两个主要问题：首先，它们通过元素级联或相加将激光雷达特征与图像特征融合，在图像特征质量较低的情况下，性能严重下降。其次，寻找稀疏的LiDAR点与密集的图像像素之间的硬关联，不仅浪费了大量具有丰富语义信息的图像特征，而且严重依赖于两个传感器之间的高质量校准，而由于固有的时空偏差，这种校准往往难以获得。

总的来说就是两个问题：（1）图像特征的质量无法保证（2）传感器外参不准，很小的误差会造成对齐失败。

我们的关键思想是重新定位融合过程的重点，从硬关联到软关联，以导致鲁棒性退化图像质量和传感器不对准。具体来说，我们设计了一种使用两个Transformers解码器层作为检测头的顺序融合方法。我们的第一个解码器层利用稀疏的object queries集来根据LiDAR特性生成初始的边界框。与2D中独立于输入的对象查询[2,45]不同，我们使对象查询具有输入依赖性和类别感知性，从而使查询具有更好的位置和类别信息。接下来，第二个变压器解码器层自适应融合对象查询与有用的图像特征相关的空间和上下文关系。我们利用局域诱导偏差，在初始边界框周围对交叉注意进行空间约束，以帮助网络更好地访问相关位置。我们的融合模块不仅为目标查询提供了丰富的语义信息，而且由于激光雷达点与图像像素之间的关联是一种软的、自适应的方式，因此对较差的图像条件具有更强的鲁棒性。最后，针对点云中难以检测的对象，引入了图像引导的查询初始化模块，在查询初始化阶段引入了图像引导。贡献：

（1）我们的研究探讨了并揭示了鲁棒融合的一个重要方面，即软关联机制。

（2）我们提出了一种新的基于Transformers的激光雷达-摄像机融合模型用于三维检测，该模型细致地进行了粗粒度融合，对退化的图像质量和传感器不对中显示了卓越的鲁棒性。

（3）我们介绍了几个简单而有效的调整对象查询，以提高质量的初始边界框预测的图像融合。图像引导的查询初始化模块也被设计用来处理点云中难以检测到的对象

2. Related Work

Transformers用于特征提取复杂度较高，计算量太大，因此特征提取选用3D backbones，利用一个Transformers解码器，将一小组对象查询作为检测头，使计算成本可控。

LiDAR-Camera 3D Detection：PointPainting等方法受限于传感器标定不准，此外，简单的逐点拼接忽略了真实数据的质量和两种模式之间的上下文关系，因此在图像特征有缺陷时导致性能下降。

3. Methodology

如上图所示，给定一个LiDAR BEV feature map和image feature map，我们的基于Transformer的检测头首先利用LiDAR信息将Object query解码为初始的边界框预测，然后通过注意力机制将Object query与有用的图像特征融合，进行LiDAR-camera融合。

3.1. Preliminary: Transformer for 2D Detection

DETR

从DETR开始，Transformer开始被大量用到目标检测中。DETR使用了一个CNN提取图像特征，并使用Transformer架构将一小组学习到的embeddings(称为object queries)转换为一组预测。后续有一些方法给object queries进一步加入了位置信息。在我们的工作中，每个object queries包含一个提供对象定位的query position和一个query feature 编码实例信息，如框的大小、方向等。

3.2. Query Initialization

Input-dependent. 在开创性的著作[2,45,71]中，query position作为网络参数随机生成或学习，而与输入的数据无关。这种独立于输入的query position需要额外的阶段(解码器层)来为他们的模型[2,71]学习向真实对象中心移动的过程。最近，在二维目标检测[57]中发现，通过更好的object queries初始化，可以弥补1层结构和6层结构之间的差距。受此启发，我们提出了一种基于center heatmap的输入相关初始化策略，以实现仅使用一个解码层的竞争性能。

具体而已，给定一个XYD的LiDAR BEV特征，我们首先预测一个特定类的热图，X*Y*K,XY是特征图的尺寸，K是种类数量。然后，我们将热图看作X × Y × K对象候选，并选择所有类别的前n个候选对象作为我们的初始object queries。为了避免空间过于封闭的查询，在[66]之后，我们选择局部最大元素作为我们的对象查询，其值大于或等于它们的8个连接的邻居。否则，需要大量queries覆盖BEV平面。所选候选对象的位置和特征用于初始化query positions 和 query features。这样，我们的初始对象查询将位于或接近潜在的对象中心，消除多个解码器层来细化位置的需要。

Category-aware. BEV平面上的物体均为绝对尺度，同一类别之间的尺度方差较小。为了利用这些属性更好地进行多类检测，我们通过为每个object queries类别嵌入，使object queries具有类别感知性。具体地说，使用每个被选中候选的类别(例如Sˆijk属于第k个类别)，我们通过将一个热门类别向量线性投影到Rd向量产生的类别嵌入，明智地对查询特征进行元素求和。类别嵌入具有两个方面的优点:一方面，它可以作为建模自注意模块中对象-对象关系和交叉注意模块中对象-上下文关系的有用边信息;另一方面，在预测时，它可以传递对象有价值的先验知识，使网络关注于类别内的方差，从而有利于属性预测。

3.3. Transformer Decoder and FFN

解码结构遵循DETR，object queries与特征映射(点云或图像)之间的交叉注意将相关上下文聚集到候选对象上，而object queries之间的自注意导致了不同候选对象之间的成对关系。query positions通过多层感知器(MLP)嵌入到d维位置编码中，并根据查询特征逐一的地进行元素求和。这使得网络能够同时对上下文和位置进行推理。

N个包含丰富实例信息的object queries被前馈网络(FFN)独立地解码为方框和类标签。从object queries预测的有中心点偏移，log（l）,log（w）,log（h）.偏航角sin(α), cos(α) ,x,y方向的速度，我们还预测了一个类概率。每个属性由一个单独的两层1×1卷积计算。通过并行地将每个object queries解码为预测，我们得到一组预测{ˆbt, pˆt}N t作为输出，其中ˆbt是第i个查询的预测边界框。类似3DETR，我们采用了辅助解码机制，在每个解码器层后增加了FFN和监督（即每一个解码层算一个LOSS）。因此，我们可以从第一解码器层得到初始的边界盒预测。我们在LiDAR-camera融合模块中利用这些初始预测来约束交叉注意，如下一节所述。

3.4. LiDAR-Camera Fusion

图像特征提取 我们没有基于激光雷达点与图像像素之间的硬关联来获取多视图图像特征。相反，我们保留所有图像特征FC∈RNv×H×W ×d作为我们的存储库，并利用Transformer解码器中的交叉注意机制，以稀疏密集、自适应的方式进行特征融合。

SMCA for Image Feature Fusion

为了降低硬关联策略对传感器标定的敏感性和图像特征的劣等性，我们利用交叉注意机制建立LiDAR与图像之间的软关联，使网络能够自适应地确定从图像中获取什么信息和什么位置。

受到[9]的启发，我们设计了一个空间调制交叉注意(SMCA)模块，该模块通过一个二维圆形高斯掩模来衡量交叉注意，该模块围绕着每个查询的投影2D中心（仅利用点云的预测结果根据外参投影到图像上）。二维高斯权值掩码M的生成方法与CenterNet类似。然后这个权重图与所有注意力头之间的交叉注意图相乘。这样，每个object queries只关注投影2D框周围的相关区域，这样网络就可以根据输入的LiDAR特征更好更快地学习到选择哪些图像特征。注意力图如下图3所示。

该网络通常倾向于关注接近对象中心的前景像素，忽略无关像素，为对象分类和边界框回归提供了有价值的语义信息。在SMCA之后，我们使用另一个FFN，使用包含LiDAR和图像信息的object queries来产生ffinal bound box预测。

3.5. Label Assignment and Losses

参照DETR，我们发现预测对象与真实对象之间的二部匹配匈牙利算法[13]。

3.6. Image-Guided Query Initialization

因为我们的对象查询目前只使用激光雷达的特点，它可能导致次优的检测召回率。从经验来看，我们的模型已经实现了高召回率，并在基线上显示了优越的性能(第5节)。然而，为了进一步利用高分辨率图像的能力来检测小目标，并使我们的算法在稀疏情况下更鲁棒激光雷达点云，我们提出了一个图像引导查询初始化策略。利用LiDAR和相机信息选择object queries。

请注意，提出一种将图像特征投影到BEV平面上的新方法超出了本文的范围。我们相信我们的方法可以在这个方向上受益于更多的研究进展[26,32,33]

点击进入—> CV 微信技术交流群

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

3D点云和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如3D点云或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

猜你喜欢

目录

热门文章