翻译：种争青

校稿：董亚微

00 摘要

多模态融合是自动驾驶系统感知的一个基本任务，最近引起了许多研究者的兴趣。然而，由于原始数据的噪声、信息的未充分利用以及多模态传感器的未对齐，实现相当好的性能并不是一件容易的事情。

在本文中，我们对现有的自动驾驶多传感器融合感知方法进行了文献综述。整体上，我们对50多篇论文进行了详细的分析，其中包括使用激光雷达和相机尝试解决目标检测和语义分割任务的方法。

与传统的融合模型分类方法不同，我们提出了一种创新的方法，从融合阶段的角度，用一种更合理的分类法将融合模型分为两大类、四小类。此外，我们深入研究了当前的融合方法，重点关注仍然需要解决的问题，并就潜在的研究机会进行了讨论。总之，本文的目的是为自动驾驶感知任务提出一种新的多模态融合方法分类，并引发对未来基于融合技术的思考。

01 介绍

环境感知是自动驾驶的一个重要模块 [ 26，44，71 ] 。其中包括但不限于2D/3D目标检测、语义分割、深度补全和预测，这些都依赖于安装在车辆上的传感器从环境中采集的原始数据。现有的大多数方法[ 44 ] 分别对LiDAR和相机捕获的点云、图像数据进行感知任务，做出了一些有前景的成果。

然而，仅通过单模态数据的感知会有一定的缺陷 [ 4，26 ] 。例如，相机捕获的数据主要在视野前的较低位置 [ 102 ] ；在更复杂的场景中物体可能会被遮挡，给目标检测和语义分割带来严峻挑战。另外，受限于机械结构，激光雷达在不同距离具有不同的分辨率[ 91 ] ，而且容易受到大雾和暴雨等极端天气的影响 [ 4 ] 。不过这两种模式的数据分开使用时在不同领域表现出色[ 44 ] ，当激光雷达和相机的融合感知时，两者互补在感知任务上可以产生更好的性能 [ 4，76，90 ] 。

最近，用于自动驾驶中的感知任务 [ 15，77，81 ] ，从更高级的跨模态特征表示和不同模态中更可靠的传感器，到更复杂、健壮的深度学习模型和多模态融合技术，发展迅速。但是，只有少数文献综述[ 15，81 ] 专注于多模态融合方法论本身，大多数都遵循一个传统的规则：将它们分为早期融合、深度融合和后期融合三大类，无论是在数据级、特征级还是提案级（Proposal-Level），都侧重于深度学习模型中融合特征的阶段。首先，这种分类法并没有明确定义每个级别的特征表示。其次，它表明两个分支：激光雷达和相机，在处理过程中总是分立的，模糊了对激光雷达提案级（Proposal-Level）特征和相机数据级特征的融合情况 [ 106 ] 。总之，传统的分类法可能很直观，但很粗陋地概括了近年来出现的越来越多的多模态融合方法，而这阻碍了研究者系统性地研究和分析。

在这篇文章中，我们将简要回顾最近关于自动驾驶感知的多传感器融合的论文，并且提出了一种创新的方法，从融合阶段的角度，通过更合理的分类将50多篇相关论文分为两大类和四小类。

这项工作的主要贡献可以总结如下：

提出了一种用于自动驾驶感知的多模态融合方法的创新分类法，包括两大类，即强融合和弱融合，以及四个强融合小类，即早期融合、深度融合、后期融合和不对称融合。这些都通过LiDAR和相机的特征表示来明确定义。
我们对激光雷达和相机分支的数据格式和表示进行了深入分析，并讨论了它们的不同特征。
我们对待解决的问题进行了详细的分析，并介绍了多传感器融合的几个潜在的研究方向，希望对以后的研究工作有所启发。

本文由以下几部分组成：

第二部分简要介绍了自动驾驶中的感知任务，包括但不限于目标检测、语义分割，以及一些广泛使用的开放数据集和基准。

在第三部分中，我们总结了作为下游模型输入的所有数据格式。与相机类不同，激光雷达类的输入格式可能会有所不同，包括不同的手动设计特征和表示。

然后，我们在第四部分中详细描述了融合方法。这是一种创新和清晰的分类法，与传统方法相比，它将当前所有工作分为两大类和四个小类。

在第五部分中，我们深入分析了自动驾驶中多传感器融合的一些遗留问题、研究机会和可能的未来工作。第六部分对本文进行了总结。

02 任务和公开竞赛

我们将在本节中首先介绍自动驾驶中常见的感知任务。之后，会介绍一些广泛使用的开放基准数据集。

2.1 多传感器融合感知任务

一般来说，感知任务包括像目标检测、语义分割、深度补全和预测等 [ 26，71 ] 。在这里，我们把前两项任务作为主要的研究领域。此外，它们还包括障碍物检测、交通灯、交通标志和车道或自由空间分割等任务。我们还简要介绍了一些遗留的任务。自动驾驶中的感知任务概述如图所示1。

目标检测

对于自动驾驶而言，了解周围环境是至关重要的。无人驾驶汽车需要检测道路上静止和移动的障碍物，以实现安全驾驶。目标检测是一项传统的计算机视觉任务，广泛应用于自动驾驶系统中 [ 61，108 ] 。研究人员为障碍物检测(汽车、行人、骑车人等)、红绿灯检测、交通标志检测等构建了这样的框架。

一般来说，目标检测使用由参数表示的矩形或立方体来紧密地绑定预定义类别的实例，如汽车或行人，这需要在定位和分类方面都很出色。由于缺乏深度信息，2D目标检测通常简单地表示为(x，y，h，w，c )，而三维目标检测通常表示为(x，y，z，h，w，l，θ，c)。

语义分割

除了目标检测，许多自动驾驶感知任务可以表述为语义分割。例如，自由空间检测 [ 35，57，107 ] 是许多自动驾驶系统的基本模块，自动驾驶系统将地面像素分为可驾驶和不可驾驶部分。一些车道检测 [ 24，84 ] 方法还使用多类语义分割掩码来表示道路上的不同车道。

语义分割的本质是将输入数据的基本成分(如像素和3D点)聚集成包含特定语义信息的多个区域。具体地说，语义分割是给定一组数据，例如图像像素或LiDAR 3D点云，以及一组预定义的候选标签，我们使用一个模型来为每个像素或点di分配k个语义标签其中一个，或者代表一个概率。

其他感知任务

除了上面提到的目标检测和语义分割，自动驾驶中的感知任务还包括目标分类 [ 44 ] ，深度补全和预测 [ 26 ] 。目标分类主要解决通过模型给定点云或者图像确定类别的问题。深度补全和预测任务侧重于在给定激光雷达点云和图像数据的情况下，预测图像中每个像素与观察者之间的距离。尽管多模态信息很可能会对这些任务有帮助，但是现在还没有被广泛讨论。因此，我们选择在本文中省略这两个部分。

此外，虽然许多其他感知任务没有在本文中涉及，但大多数可以被视为目标检测或语义分割的变体。因此，本文主要围绕这两个方面展开研究工作。

2.2 公开竞赛和数据集

虽然与自动驾驶感知相关的数据集有十多个 [ 7，10，27，30，47，50，52，56，58，64，71，80，88，93，94，97，101 ] ，不过，只有三个数据集是常用的，分别是KITTI [ 26 ]，Waymo [ 71 ]，和nuScenes [ 6 ] 。在这里，我们在表中1中总结了这些数据集的详细特征。

KITTI [ 26 ] open benchmark数据集作为自动驾驶中最常用的对象检测数据集之一，包含2D、3D和鸟瞰视图。KITTI配备了四台高分辨率相机、Velo- dyne激光扫描仪和最先进的定位系统，收集了7481幅训练图像和7518幅测试图像以及相应的点云数据。被标记为汽车、行人和骑行人的这三类，有20多万个3D对象，并且这些对象的按照检测难度被分为三类：容易、中等和困难。因此，对于KITTI目标检测，其平均精度经常被用于比较模型能力。此外，平均方向相似度也被用来评估联合检测目标和估计其三维方向的性能。

作为自动驾驶基准测试最大的开放数据集之一，Waymo [ 71 ] 开放数据集由五个激光雷达传感器和五个高分辨率针孔相机收集。具体来说，有798个用于训练的场景，202个用于验证的场景，以及150个用于测试的场景。每个场景持续20秒，并配有车辆、骑行者和行人的标注。为了评估3D对象检测任务，Waymo由四个指标组成:AP/L1，APH/L1，AP/L2，APH/L2。AP和APH代表两种不同的性能测量，而L1和L2包含具有不同检测难度的对象。至于APH，它的计算类似于AP，但按航向精度加权。

NuScenes [ 6 ] 开放数据集包含1000个驾驶场景，其中700个用于训练，150个用于验证，150个用于测试。nuScenes配备了相机、激光雷达和雷达传感器，可以在每个关键帧中标注23个对象类别，包括不同类型的车辆、行人和其他人。NuScenes使用AP、TP进行性能评估检测。此外，NuScenes提出了一种新的标量分数作为核场景检测分数(NDS)，通过AP、TP分离不同的错误类型来计算。

03 激光雷达和影像的表示

深度学习模型效果会受到输入数据表示形式的很大影响。为了实现该模型，我们需要在将数据输入模型之前，通过精心设计的特征提取器对原始数据进行预处理。因此，我们首先介绍激光雷达和图像数据的表示，之后的部分讨论融合方法和模型。

至于图像分支，大多数现有方法保持和下游模块输入的原始数据相同的格式[ 81 ] 。不过，激光雷达分支高度依赖于数据格式 [ 44 ] ，它强调不同的特性，并极大地影响下游的模型设计。因此，我们将其分为基于点、体素和2D映射的点云数据格式，以适应异构深度学习模型。

3.1 图像表示

作为2D数据采集或3D对象检测和语义分割任务中最常用的传感器，单目相机提供丰富的RGB图像纹理信息 [ 2，36，86 ] 。具体地，对于每个图像像素(u，v)，它具有多通道特征向量，通常包含在红、蓝、绿通道中分解的相机捕捉颜色或者其他手动设计的特征作为灰度通道。

因为有限的深度信息很难由单目相机提取，所以直接检测三维空间中的物体是非常有挑战性的。因此，许多作品 [ 11，43，103 ] 使用双目或立体照相机系统通过空间和时间空间来获取用于3D对象检测的更多信息，例如深度估计、光流等等。对于特殊的驾驶环境，如夜晚或大雾天气，一些工作还使用门控或红外相机来提高鲁棒性 [ 4 ] 。

3.2 基于点的点云表示

至于3D感知传感器，激光雷达使用激光系统扫描环境并生成点云。它对世界坐标系中的数据点进行采样，这些点记录了激光光线和不透明物体面的交点。一般来说，大多数激光雷达的原始数据是类似(x，y，z，r)的四元数，其中r代表每个点的反射率。不同的质地导致不同的输入反射率，它在几个任务中提供更多信息 [ 31 ] 。

为了合并LiDAR数据，一些方法通过基于点的特征提取back- bone直接使用点 [ 61，62 ] 。然而，点的四元数表示存在冗余或速度缺点。因此，许多研究人员 [ 18，41，66，108 ] 在将点云输入到下游模块之前，都会尝试将其转换为体素或2D投影。

3.3 基于体素的点云表示

一些工作通过将3D空间离散成3D体素来利用3D CNN，表示为= ，其中每个代表一个特征向量，如。代表体素化立方体的中心线，而代表一些基于统计的局部信息。

局部密度是由局部体素中3D点的数量定义的常用特征 [ 8，75 ] 。局部偏移通常定义为点实数坐标和局部体素质心之间的偏移。其他可能包含局部线性和局部曲率。

最近的工作可能会考虑一种更合理的离散化方式，如基于圆柱体的体素化 [ 91 ] ，但是与上面提到的基于点的点云表示不同，基于体素的点云表示极大地减少了非结构化点云的冗余度[ 41 ] 。此外，由于能够利用3D稀疏卷积技术，感知任务不仅实现了更快的训练速度，而且实现了更高的精度[ 18，41 ] 。

3.4 基于2D映射的点云表示

一些工作不是提出新的网络结构，而是利用复杂的2D CNN主干对点云进行编码。具体来说，他们试图将激光雷达数据作为两种常见类型投影到图像空间，包括相机平面图(CPM)和鸟瞰图(BEV) [ 41，96 ] 。

通过将每个3D点(x，y，z)投影到相机坐标系(u，v )，可以利用外部校准获得CPM。由于CPM与相机图像具有相同的格式，因此可以使用CPM作为附加渠道。不过，投影后激光雷达的分辨率较低，所以CPM中许多像素的特征会被破坏。为此，有人已经提出了一些方法来对特征图进行上采样，而其他人则没有进行处理[ 39，49 ] 。

与直接将激光雷达信息投影到前视图像空间的CPM不同，BEV映射提供了从上方对场景的俯视视图。检测和定位任务使用它有两个原因。首先，与安装在挡风玻璃后的摄像头不同，大多数激光雷达位于车顶，遮挡较少[ 26 ] ；其次，所有对象都放置在BEV中的地平面上，并且模型可以在长度和宽度没有失真的情况下进行预测[ 26 ] 。

然，BEV组件可能会有所不同。一些鸟瞰图直接从高度、密度或强度转换为基于点或基于体素的特征[ 12 ] ，而其他的通过特征提取器模块提取柱状物中的激光雷达信息的特征 [ 41 ] 。

04 融合方法

在本节中，我们将回顾激光雷达与相机数据的不同融合方法。从传统分类的角度来看，所有的多模态数据融合方法可以简单分为三类，包括数据级融合(早期融合)、特征级融合(深度融合)和目标级融合(后期融合) [ 15，23，81 ] 。

数据级融合（早期融合）方法通过空间对准直接融合不同模态的原始传感器数据。特征级融合（深度融合）方法通过串联或逐元素乘法在特征空间中混合跨模态数据。目标级融合方法综合每种模态模型的预测结果并做出最终结果。

然而，最近的工作 [ 17，40，83，104，106 ] 是不能直接归入这三类的。所以，在本文中，我们提出了一种新的分类法：将所有的融合方法分为强融合和弱融合，我们将详细阐述这两种方法。关系如图2所示。

为了进行性能比较，我们将重点放在KITTI benchmark中的两个主要任务上，即3D检测和鸟瞰目标检测表2和表3分别给出了最近的多模态融合方法在BEV和3D装置的KITTI测试数据集上的实验结果。

4.1 强融合

根据激光雷达和相机数据表示的不同组合阶段，我们将强融合分为四类，即早期融合、深度融合、后期融合和不对称融合。作为研究最多的融合方法，强融合在近几年有许多突出的成果 [ 55，76，77 ] 。从图3很容易注意到，强融合中的每个小类高度依赖于激光雷达点云，而不是相机数据。我们将具体讨论其中的每一个问题。

早期融合。数据级融合是一种通过原始数据级的空间对齐和投影直接融合每个形态中的数据的方法，早期融合与传统的数据级融合定义不同，早期融合是在数据级融合LiDAR数据，在数据级或特征级融合相机数据。如图4，是早期融合的一种模型举例。

对于上述LiDAR分支，点云可以以具有反射、体素化张量、前视图/距离视图/鸟瞰图以及伪点云的3D点的形式使用。尽管所有这些数据都具有不同的内在特征，这些特征与后一种激光雷达主干线高度相关，但除伪点云外，大多数数据都是通过基于规则的处理生成的 [ 79 ] 。此外，激光雷达的所有这些数据表示都可以直观显示，因为与嵌入特征空间相比，此阶段的数据仍具有可解释性。

对于图像路径，严格的数据级别定义只能包含RGB或Gray等数据，缺乏通用性和合理性。与传统的早期融合定义相比，我们将相机数据放宽到数据级和特征级数据。特别是，由于这些“目标级”特征不同于整个任务的最终目标级建议，因此我们将图像中的语义分割任务结果作为特征级表示，有利于三维目标检测。

文献 [ 76 ] 和 [ 90 ] 将图像分支和原始激光雷达点云中的语义特征融合在一起，从而在目标检测任务中获得更好的性能。文献 [ 68 ] 和 [ 20 ] 也利用了语义特征，但与上述方法不同，它将原始激光雷达点云预处理为体素化张量，以进一步利用更先进的激光雷达主干。文献 [ 54 ] 将3D激光雷达点云转换为2D图像，并利用成熟的CNN技术融合图像中的特征级表示，以实现更好的性能。文献 [ 87 ] 将原始RGB像素与体素化张量融合，而文献 [ 79 ] 直接将图像生成的伪点云与激光雷达分支生成的原始点云组合在一起，以完成目标检测任务。

基于VoxelNet [ 108 ] ，文献 [ 69 ] 提出了一种点融合方法，它将对应像素的图像特征向量直接附加到体素化向量上。文献 [ 92 ] 提出了将每个原始点与图像分支的全局特征相连接的稠密融合。文献[ 53 ] 重点关注使用CNN的2D行人检测。

作为早期融合，它在输入CNN之前直接融合不同的分支。文献[ 105 ] 提出了一种点注意力融合方法，将图像特征融合到激光雷达点云中的体素化张量中。

深度融合。深度融合方法对激光雷达分支在特征级融合跨模态数据，而对图像分支在数据级和特征级融合。例如，有些方法使用特征提取器分别获取LiDAR点云和相机图像的嵌入表示，并通过一系列下游模块将特征融合成两种模式 [ 32，102 ] 。然而，与其他强融合方法不同，深度融合有时以级联方式融合特征 [ 4，32，46 ] ，这既利用了原始的语义信息，也利用了高级语义信息。图5中的模型是深度融合的一个例子。

文献 [ 92 ] 提出了具有来自图像分支的全局特征的全球融合附加全局激光雷达特征。文献 [ 69 ] 提出了其他融合方法，如体素融合，它将ROI合并图像特征向量附加到激光雷达点云中每个体素的密集特征向量中。文献 [ 105 ] 提出了另一种称为密集注意力融合的方法，该方法融合来自多个分支的伪图像。文献 [ 45，49 ] ，分别提出了一种深度融合方法。EPNet [ 32 ]深度激光雷达图像融合评估了相应图像特征对减少噪声影响的重要性。文献 [ 4 ] 展示了极端天气下的多模态数据集，并对各个分支进行了深度融合，大大提高了自动驾驶模型的鲁棒性。其他深度融合工作包括 [ 9，14，16，22，37，46，73，78，85，102 ] 有看似相同的融合模块。

后期融合。后期融合，也称为目标级融合，指的是融合每种形式的Pipeline结果的方法。例如，一些后期融合方法利用来自激光雷达点云和相机图像的输出，并基于两种模态的结果进行最终预测 [ 55 ] 。请注意，两个分支方案应该具有与最终结果相同的数据格式，但在质量、数量和精度上有所不同。后期融合可以看作是一种利用多模态信息优化最终方案的集成方法。图6是后期融合的一个例子。

如上所述，文献 [ 55 ] 利用后期融合，结合图像分支中的2D方案和激光雷达分支中的3D方案，二次细化每个3D区域方案的结果。此外，对于每个重叠区域，它都使用了诸如置信度、距离和IoU等统计特征。文献 [ 1 ] 侧重于2D目标检测，它将来自两个分支的建议与置信度得分等特征结合起来，并输出最终的IoU得分。文献 [ 29 ] 、 [ 28 ] 通过将分割结果结合在一起来解决道路检测问题。作为文献 [ 53 ] 中的后期融合，它将同一3D检测方案的不同分支的结果汇总为一个最终结果。

不对称融合。除了早期融合、深度融合和后期融合，还有一些方法以不同的权限处理不同的模态信息，因此我们定义了将来自一个分支的目标级信息与来自其他分支的数据级或特征级信息进行融合的方法为不对称融合。不同于强融合中将两个分支以看似平等的地位对待的方法，不对称融合至少有一个分支占主导地位，而其他分支提供辅助信息来执行最终任务。后期融合的一个例子是图7。尤其是与后期融合相比，尽管它们可能具有相同的提取特征 [ 55 ] ，但不对称融合只有一个分支的建议，而后期融合有来自所有分支的建议。

这种融合方法是合理的，因为在相机数据上使用CNN可以过滤点云中语义上无用的点，并从截锥体的角度提升3D LiDAR主干的性能（如文献 [ 106 ] ），从而具有出色的性能。它提取原始点云中的视锥以及相应像素的RGB信息，用来确定3D边界框的参数。不过，有些作品跳出常规思维，使用LiDAR主干以多视图样式引导2D主干，从而实现更高的精度。文献 [ 40 ] 着重于通过基于3D检测方案提取多视图图像进行行人检测，该方案进一步利用CNN来完善先前的方案。文献 [ 12 ] [ 17 ] 完善了激光雷达分支机构单独预测的3D方案，其他分支机构具有ROI特征。文献 [ 5 ] 重点关注2D检测，利用激光雷达分支的3D区域方案，并重新投影到2D方案以及图像特征，以便进一步细化。文献 [ 11 ] 通过统计和基于规则的信息，提出了一个三维潜在边界框，结合图像特征，输出最终的3D方案。文献 [ 70 ] 专注于通过专门收集的数据集完成的小对象检测，这本质上是一项2D语义分段任务，将LiDAR的结果与原始RGB图像相结合，以输出最终结果。

4.2 弱融合

与强融合不同，弱融合方法不直接融合来自多模态分支的数据/特征/对象，而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法来利用一种模态中的数据作为监控信号来指导另一种模态的交互。图8展示了弱融合模式的基本框架。例如，美国有线电视新闻网(CNN)图像分支的2D方案可能会直接在原始激光雷达点云中产生截锥。不过，与上面提到的将图像特征组合为不对称融合不同，弱融合直接将那些选择的原始LiDAR点云输入到LiDAR主干中，以输出最终结果 [ 60 ] 。

文献 [ 83 ] 通过固定的选择步幅将每个截面体划分为若干部分，进一步提高了3D检测精度，从而推进了该技术。文献 [ 104 ] 侧重于远程稀疏点云目标检测。文献 [ 99 ] 从语义分割结果中过滤出视锥中LiDAR点云的所有背景点，生成图像。文献 [ 72 ] 侧重于半监督和转移学习，其中根据2D图像方案提出了截锥。

4.3 其他融合方法

有些工作不能简单地定义为上述任何一种融合，因为它们在整个模型框架中拥有不止一种融合方法，例如深度融合和后期融合的组合 [ 39 ] ，而文献 [ 77 ] 将早期融合和深度融合结合在一起。这些方法在模型设计视图中存在冗余，并非是融合模块的主流。

05 多模态融合的机遇

近年来，用于自动驾驶感知任务的多模态融合方法，从更高级的特征表示到更复杂的深度学习模型 [ 15，81 ] ，取得了快速发展。不过，还有一些更开放的问题有待解决。我们在此将未来需要做的一些关键、基本的工作总结为以下几个方面。

5.1 更先进的融合方法

当前的融合模型存在失准和信息丢失问题 [ 13，67，98 ] 。此外，扁平融合操作 [ 20，76 ] 也阻碍了感知任务性能的进一步提高。我们将其概括为两个方面：失准和信息丢失、更合理的融合操作。

失准和信息丢失

相机和激光雷达的内在和外在都有很大的不同。两种方式的数据都需要在新的坐标系下重新梳理。传统的早期和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素，反之亦然[ 54，69，76 ] 。不过，由于存在感官噪音，这种逐像素对齐不够精确。因此，我们可以看到，除了这种严格的通信之外，利用周围信息作为补充的一些工作[ 90 ] 也会带来更好的性能。

此外，在输入空间和特征空间的转换过程中还存在一些其他信息损失。通常，投影降维操作将不可避免地导致大量信息丢失，例如，将3D LiDAR点云映射到2D BEV图像。因此，未来的工作可以通过将两个模态数据映射到另一个专门为融合而设计的高维表示，有效地利用原始数据，减少信息损失。

更合理的融合操作

当前的研究工作使用直观的方法来融合跨模态数据，例如串联和元素相乘 [ 69，77 ] 。这些简单的操作可能无法融合分布差异较大的数据，因此很难弥合两种模式之间的语义鸿沟。一些工作试图使用更精细的级联结构来融合数据并提高性能 [ 12，46 ] 。在未来的研究中，双线性映射等机制 [ 3、25、38 ] 可以融合具有不同特征的特征。

5.2 多源信息利用

前视图的单帧问题是自动驾驶感知任务的典型场景 [ 26 ] 。但是，大多数框架并没有精心设计辅助任务利用有限的信息来进一步了解驾驶场景。我们将其概括为具有更多潜在有用信息和自我监督的表征学习。

具有更多潜在有用信息

现有方法 [ 81 ] 缺乏对来自多个维度和来源的信息的有效利用。它们大多集中在前视图的单个多模态数据帧上。因此，其他有意义的信息（如语义、空间和场景上下文信息）未得到充分利用。

一些模型 [ 20、76、90 ] 试图将图像语义分割任务的结果用作附加特征，而其他模型无论是否经过特定下游任务的训练 [ 46 ] ，都可能利用神经网络主干的中间层的特征。在自动驾驶场景中，许多具有明确语义信息的下游任务可能会极大地提高目标检测任务的性能。例如，车道检测可以直观地为检测车道之间的车辆提供额外的帮助，语义分割结果可以提高目标检测性能 [ 20，76，90 ] 。所以，未来的研究可以通过检测车道、红绿灯和标志等各种下游任务，共同构建一个完整的城市场景场景语义理解框架，以协助感知任务的执行。

此外，当前的感知任务主要依赖于忽略时间信息的单个框架。最近基于LiDAR的方法 [ 63 ] 结合了一系列帧来提高性能。时间序列信息包含序列化的监督信号，与使用单个帧的方法相比，它可以提供更可靠的结果。

因此，未来的工作可能会更深入地利用时间、上下文和空间信息，通过创新的模型设计实现连续框架。

表示学习的自我监督

相互监督的信号自然存在于相同的现实场景但不同的角度采样的交叉模式数据中。然而，由于缺乏对数据的深入理解，目前的方法无法挖掘每种模式之间的相互关系。

未来，研究的重点是如何将多模态数据用于自我监督学习，包括预训练、微调或对比学习。通过实施这些最先进的机制，融合模型将加深对数据的理解，并取得更好的结果，这在其他领域已经显示出一些有希望的迹象，同时为自动驾驶感知留下了空间 [ 48 ] 。

5.3 感知传感器的固有问题

领域偏差、分辨率与真实场景和传感器高度相关 [ 26 ] 。这些意料之外的缺陷阻碍了自动驾驶深度学习模型的大规模培训和实施，这需要在未来的工作中解决。

数据域偏差

在自动驾驶感知场景中，不同传感器提取的原始数据伴随着严重的领域相关特征。不同的相机系统有其光学特性，而激光雷达可能会从机械激光雷达到固态激光雷达有所不同。更重要的是，即使是由相同的传感器捕获的数据，数据本身可能也有区域偏见，例如天气、季节或位置[ 6，71 ] 。因此，检测模型无法很好地适应新的场景。由于泛化失败，这些缺陷阻碍了大规模数据集的收集和原始训练数据的重复利用。所以，在未来的工作中，找到一种消除区域偏差和自适应集成不同数据源的方法至关重要。

与数据解析冲突

不同模式的传感器通常具有不同的分辨率 [ 42，100 ] 。例如，激光雷达的空间密度明显低于图像的空间密度。无论采用何种投影方法，都会因为找不到对应关系而消除一些信息。这可能导致模型由一种特定形态的数据主导，无论是由于特征向量的不同分辨率还是原始信息的不平衡。因此，未来的工作可以探索与不同空间分辨率的传感器兼容的新数据表示系统。

06 结论

在本文中，我们梳理了50多篇关于用于自动驾驶感知的多传感器融合的相关论文。具体来说，我们首先提出了一种创新的方法，从融合的角度，通过更合理的分类法将这些论文分为三类。然后，我们对激光雷达和相机的数据格式和表示进行了深入研究，并总结了不同的特性。最后，对多传感器融合中存在的问题进行了详细的分析，并介绍了几个可能对今后的研究工作有一定的启发意义新方向。

万字综述｜自动驾驶多传感器融合感知