论文阅读：A Multi-Phase Camera-LiDAR Fusion Network for3D Semantic Segmentation With Weak Supervision

来源：IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 33, NO. 8, AUGUST 20230、

0、摘要

相机和激光雷达是自动驾驶中不可缺少的感知单元，为三维语义分割提供了互补的环境信息。融合两种模式的信息，实现准确、稳健的语义分词，是语义分词的关键。然而，图像特征的可靠性、不同图像特征的贡献以及图像结果与点云之间的权衡将制约基于融合的方法的性能。提出了一种用于三维语义分割的多阶段融合网络。对于第一个因素，本文率先将普通数据集中由于缺少密集标注而导致图像特征可能出错的问题作为弱监督问题，引入了弱监督损失。其次，提出的基于注意力的特征融合模块可以有效地对图像特征进行滤波和重加权。第三，利用基于自信的后期融合模块在像素级进一步融合两种模式的结果，以补充其优势。该方案在nuScenes和SemanticKITTI基准测试中进行了评估，结果表明该方案与最先进的方法相比具有很强的竞争力。消融研究证明了该方法在稀疏类分割中的优越性。此外，还对该方法的鲁棒性进行了评价，结果表明，即使在某一传感器发生故障时，该方法也能保持相对准确的结果。

1、INTRODUCTION

感知是自动驾驶的核心模块，是后续规划、决策和控制的先导任务。感知是通过颜色、深度、行为等各种复杂特征来识别和理解周围环境的过程，这些特征几乎不可能被单个传感器[1]、[2]、[3]所收集。现有的自动驾驶系统中安装了包括但不限于LiDAR、摄像头和雷达在内的多个传感器，对这些传感器的多模态数据进行融合，理论上可以获得更好的性能。计算机硬件和深度学习的进步使高效处理大规模多模态数据成为可能。

激光雷达和相机是自动驾驶常用的传感器。相机可以捕捉丰富的颜色和纹理信息，而它丢失的深度信息可以由激光雷达补充。目前主流的基于深度学习的点云和RGB图像多模态融合方法可以分为三种模式:早期融合、深度融合和晚期融合[1]、[2]。早期的融合方法将融合后的原始数据作为单流模型的输入，而不需要设计复杂的模型。深度融合和后期融合方法利用专门设计的双流网络对原始数据进行处理，分别对特征和输出进行融合。有些作品试图寻找新的多模态融合策略，这些策略不能简单地归为以上三种模式[4]、[5]、[6]。不同的数据格式，或者点云空间与图像空间的不同映射，也会影响融合架构，例如基于点的[7]、[8]、[9]，基于体素的[10]、[11]，以及基于投影的[12]、[13]、[14]。因此，一些基于融合的方法在最常用的数据集上取得了较好的性能，如Semantic KITTI[15]和nuScenes[16]。

然而，融合方法并不总是优于基于单传感器的方法。RGB图像密集且规则，点云稀疏且不规则，可能导致投影误差或特征[17]，[18]丢失。此外，某一传感器的数据失效会严重影响融合性能。更为严重的是，多模态融合网络的梯度优化也变得尤为困难。用透视投影代替球面投影，减少了[13]中投影的信息损失。[5]中的作者证明，将图像的语义掩码投影到点云上可以提高后续任务的性能，即使有一些投影或语义错误。对于梯度优化问题，[19]和[13]采用混合优化方法对多模态数据进行不同的优化训练，gradient - blending[20]将模态梯度估计与OGR2最小化相融合，比单模态优化效果更好。尽管有上述成功的改进，但由于鲁棒性研究的有限，融合方法仍不可避免地对外部因素敏感。

本文从鲁棒性的角度研究了基于相机-激光雷达融合的三维语义分割方法。在三维语义分割任务中加入图像信息的主要贡献是为提高小对象的预测提供更密集的特征，并通过颜色、纹理等特征使预测更加准确。然而，图像信息的添加所带来的改善并没有完全达到预期。本文总结了制约现有融合方法精度和鲁棒性进一步提高的三个因素。首先，学习到的一些图像特征可能是错误的。自主场景中常用的三维语义分割数据集，如nuScenes和semantic KITTI，对图像没有密集的标注，这可能会导致基于图像的预测出现较大的误差，特别是对于小对象。换句话说，对应的特征是错误的。其次，由于不同的特征对结果的贡献并不相等，所以简单地将图像特征拼接成点云特征往往只能得到有限的改进。第三，特征融合难以在结果中完全体现图像添加的优势，即融合方法的预测在某些方面可能不如单纯基于图像的预测。例如，纯图像方法对于复杂背景下的小目标分割具有绝对优势，但与点云融合后的性能会降低。在反思上述因素的基础上，本文提出了一种多相位融合网络来处理两种模式的数据，在准确性和鲁棒性方面取得了优异的性能。

本文的主要贡献如下:

•本文总结了制约基于融合的三维语义分割方法性能的三个因素，并分别提出了相应的解决方案。

•提出了一种基于注意的特征融合模块，该模块生成注意图，用于选择贡献较大的图像特征。

•提出了一种基于自信图谱的后期融合策略。分别计算动态自信度图作为两个分支输出的像素级权重，以强调每个分支的强度。

•首次在camera-LiDAR融合架构中引入弱监督策略，解决了主流3D语义分割数据集缺少密集图像标注的问题。

扫描二维码关注公众号，回复： 17365348 查看本文章

•所提出的多阶段融合网络在SemanticKITTI和nuScenes数据集上进行了验证，显示出与最先进的方法相比的竞争力。此外，在原始数据被破坏的情况下进行了鲁棒性测试，显示了较好的性能。

2、RELATED WORKS

A. 3D Semantic Segmentation

原始点、三维体素和二维投影是用于三维语义分割的激光雷达数据的主要表示形式。该方法基于点云的置换不变性和旋转不变性，利用多层感知器(MLP)直接提取原始点的特征。但是，基于点的方法效率低、耗时长，不适合自动驾驶。基于体素的方法将不规则的点云分割成规则的体素，并采用随机采样的方法节省计算资源。作者在[10]中指出，由于室外点云的高稀疏性，基于体素的方法的性能受到限制，提出了采用圆柱形体素分区的圆柱形3D方法来平衡点云的分布。基于投影的方法利用二维卷积，通过球面投影或透视投影等映射手段将点云投影到二维平面上。虽然基于体素和基于投影的方法显著提高了实时性，但随机采样和投影映射都会导致信息丢失，从而严重影响精度。(AF)2-S3Net[8]将基于点和基于体素的方法融合成一个具有特征选择模块和特征融合模块的单一网络，学习更丰富的全局和局部上下文信息。作者在[21]中提出了RangeNet++，将点云投影到距离图像上作为输入，并利用后处理来解决距离表示带来的问题。图像与点云的融合也得到了广泛的探索，成为自动驾驶中首选的三维分割方法。

B. Multi-Modal Fusion for Autonomous Driving

在自动驾驶系统中，相机与激光雷达的融合是最常用的方法。Frustum PointNets[4]等早期工作从RGB图像中预测感兴趣区域(region of interest, RoI)，然后通过透视投影变换将其投影到原始点空间中，为3D检测和分割提供先验信息。MV3D[22]采用鸟瞰视图(Bird-EyeView, BEV)、点云前视图和摄像机视图作为多视图输入，将其特征在提议级与BEV作为主要引线进行融合。PointPainting[5]和FusionPainting[6]将二维语义估计投影到三维LiDAR点上，并利用三维网络对语义标记的点进行处理。近年来，人们提出了许多深度融合的信息交换形式。作者在[13]中提出了一种基于残差的融合模块，该模块训练图像特征的注意掩模，并将掩模图像特征与点云特征融合。transuser[23]利用变压器模块的自注意机制来整合来自双流网络多模态特征的信息。损失函数的形式也被认为是建立多模态特征与输出[13]，[14]，[24]之间关系的一种方法。与基于单模态的方法相比，基于多模态的方法在大规模数据集(如KITTI和nuScenes)上获得了更好的性能。

C. Weak Supervision

弱监督在语义分词中的应用主要是为了解决标注密集数据[25]、[26]、[27]、[28]、[29]、[30]代价高的问题。类激活映射最早是在[31]中提出的，用于定位没有标注的对象区域，成为主流的弱监督语义分割方法之一，并在以后的研究[32]，[33]，[34]中进行了细化。一些研究人员已经在研究如何提高神经网络从低成本注释中学习信息的能力。Zhao等人[35]利用外观特征和运动特征的融合来检测带有涂鸦标注的显著目标。在[36]中，作者提出了涂鸦注意模块和涂鸦监督丢失，以学习上下文信息，减少未标记区域的错误分割。另一种方法通过从部分可用的标签中合成完整的训练标签来模拟完全监督学习。条件随机场(CRF)是一种常用的语义分割优化方法，用于生成完整的训练标签。此外，对于弱监督，还采用了改进的CRF方法，如密集CRF[28]和网格CRF[37]。在[26]中，作者将CRF作为正则化方法加入到损失函数中，避免了训练和推理阶段额外的后处理，获得了更高的性能。在[38]中也提出了类似的方法，该方法提出了一种门控CRF损耗来训练未标记的像素，并且可以任意遮挡不希望受影响的像素的位置。

大多数公开的道路场景三维语义分割数据集都提供了完整的点云标注，而对于图像的密集标注几乎是缺乏的。因此，本文利用弱监督增强图像分割，提高融合性能，是第一个将弱监督引入相机-激光雷达融合算法的体系结构。

3、METHOD

A. Data Preparation

为了提高处理效率，本文选择2D骨干处理点云，因此需要将3D点云转换为2D格式。此外，由于两种传感器的坐标系不同，在融合过程中还需要找到图像与点云的像素对应关系。假设一帧点云与图像数据X∈R4×N, I∈R3×H×W，其中N表示点个数，(H, W)表示图像大小。然后建立LiDAR坐标到相机坐标的映射P: X→Y(Y∈RC×H×W)，使映射的2D点云Y与图像I对应的位置具有相同的语义类。

本文将映射P设为[13]后的透视投影。设Xi是X中的一个点，表示为(X, y, z, 1)T，投影点X ' i = (X '， y '， z ')T∈y为

式中，T为LiDAR坐标到摄像机的组合传输矩阵。然后将点Xi在Y上的坐标表示为(x ' /z '， Y ' /z ')，设置通道数为5，包含LiDAR坐标(x, Y, z)、到原点的欧几里德距离d和反射率值r。与原始点云相比，投影点仍然包含深度和反射率信息，而透视投影不会造成信息丢失。

（这里作者介绍的感觉不如PMF清晰可能是为了查重）

B. Network Architecture

本文提出的多相融合网络结合了深度融合和后期融合，需要对图像和点云分别使用两个独立的网络才能得到相应的预测结果，如图1所示。该网络可以看作是一组连续映射M = {E1, E2，…， Em, D1, D2，…， Dn}从输入数据到输出的分割映射，其中Ei表示编码器第i层，Dj表示解码器第j层。那么感兴趣的数据表示为:

其中SL, SC∈RC×H×W是点云网络和图像的分别输出，EC,1→i是EC,1到EC,i的连续映射，则FC的意义，i是图像编码器第i层输出的特征映射。

为了融合点云和图像，需要将两个孤立的网络关联起来。本文以点云网络为主要分支，以图像网络为辅助分支。通过提出的基于注意力的特征融合模块，将图像特征Fi选择并融合为点云特征。通过基于自信心的后期融合模块分别计算出像素级置信图，对两个分支的输出SL和SC进行加权，得到最终的分割图。

C. Attention Based Feature Fusion Module

虽然点云能够准确地返回物体的位置信息，但在颜色、边缘等信息的捕捉上存在缺陷，因此需要将图像特征整合到点云特征中。然而，相机对环境是敏感的，也就是说，引入图像特征可能会对整体性能产生负面影响。因此，只有有效的图像特征才能与点云特征融合。不同区域和不同通道的图像特征对结果的影响是不同的，因此需要在像素级进行评价。受注意力模块的启发，本文提出了一个基于注意力的特征融合模块，对图像特征进行重权选择，如图2所示。该模块的输入是四个不同尺度的图像特征，使用单独的卷积块计算每个尺度的特征权重。权值的尺寸和大小与原始特征相同，通过元素乘法将权值赋给特征。重加权后的图像特征可以表示为F ' C,i = F (FC,i)，其中F(·)定义为:

其中ca(·)表示与激活函数的卷积运算，⊙为逐元乘法，σ(·)表示Sigmoid函数。在这里，将选定的图像特征F ' C,i加入到点云特征FL,i中，得到融合特征F F,i作为下一层的输入。

进一步，建立跳跃连接，将多尺度选取的图像特征{F ' C,i |i = 1,2,3,4}与点云分支上最后一个解码器的输入特征DL,n进行融合，使误差梯度直接传播回特征融合模块，使特征加权更加准确。

（这样FC是无非是自己又经过了一次卷积，总的FC是四层混合的结果）

D. Self-Confidence Based Late Fusion

点云分支虽然吸收了图像分支的密集特征，但这些特征的优势并不能在分割结果中充分体现出来，即点云分支的局部性能，如对小物体和物体轮廓的分割，仍然不如图像分支。所提出的基于自信的后期融合策略可以从分割概率图计算像素级的自信权重图来衡量网络输出的可靠性。对于分割网络，输出包含C通道，每个通道代表像素属于C类中某一类的概率，选择概率最高的那一类作为最后的分割结果。一般来说，对于一个像素，当它具有较高的类概率时，其预测具有较高的置信度，类间的概率分布接近均匀分布，说明该预测具有较低的置信度。因此，本文引入信息熵来计算输出的自信度，

融合预测可以表示为

（这个PMF论文中也有，不过是用在感知损失上）

E. Weak Supervision Loss for the Image Branch

通过特征融合模块将图像特征融合到点云特征中，弥补LiDAR的不足。该方法工作的前提是图像分支能够根据学习到的图像特征准确地预测语义类。然而，大多数自动驾驶场景中的三维语义分割数据集都没有提供密集的二维语义标注，这使得获得准确的二维预测变得非常困难。一些方法将二维语义分割数据集上训练的模型作为图像分支，在训练[5]，[6]时不更新权值。其他方法[13]、[39]将点云标签作为稀疏标签投影到图像上。前者需要对二维语义分割网络进行额外的训练，不能通过迁移学习提高三维数据集下的泛化性能;后者使用稀疏标签，这会导致部分边缘和纹理特征的丢失。因此，这两种方法的性能收益是有限的。

本文率先将弱监督应用到相机-激光雷达融合中，以弥补缺乏密集语义标注的不足。弱监督学习利用涂鸦、边界框、点击和图像级标签等弱标注实现密集语义预测[38]，该方法通过在全监督方法上附加标准正则化实现。本文将投影到图像上的稀疏点云标签视为“点击”注释。此外，与传统的弱监督语义分词相比，“点击”标注的数量更大，因此理论上预测更准确。本文实施了三种弱监管策略，分别为WS1、WS2和WS3。

WS1的第一个策略是生成几乎完整的图像注释。由于图像中的物体大部分是连续的，即相邻的像素有很大的概率属于同一类。在此基础上，将未标记像素的类视为最近标记像素的类。由于投影点云只覆盖了图像的下半部分，所以标签的生成只应用于投影区域。由于生成的标签的可靠性不如原标签，所以损耗函数单独计算，生成的标签损耗的权重较低。

第二个策略WS2也利用了相邻像素之间的关系，但将其转换为损耗约束。以已标记像素为中心，计算已标记像素与其相邻区域内未标记像素的类向量距离，目的是使相邻像素具有相同的类预测。那么，弱监督损失可以用式(9)表示。

其中N为标记像素个数，d为中心标记像素的影响半径。Wd表示中心像素的影响效果，随着像素远离中心，影响效果线性减小。由于边缘像素的类别与相邻像素的类别没有关系，因此当∥pi−pi, j,k∥2的值大于一个阈值时，不计入损失。

对于第三个策略WS3，[38]之后，在loss函数中加入了Gated CRF loss作为标准正则化器，用于浅层交互分割。与WS2类似，在门控CRF损失中设计一个能量函数来评估原始像素的相似度，用来将标记点的信息传播到未标记点，如式(10)所示。

其中(·)是一个能量函数，用于测量SC中任意两个像素之间的总成对势，mdst i∈{0,1}用于过滤被正确注释和预测的像素。

（原文在这里https://arxiv.org/abs/1906.04651v1）

本文采用多任务损耗的方法对图像分支和点云分支进行训练。本文的损失函数结合了三大类:分割损失、弱监督损失和一致性预测损失。选取常用的由focal loss修正的Lovász-softmax损耗作为分割损耗，计算具有标记的预测像素的误差。图像分支和点云分支都能预测同一场景的分割图，结果吻合较好。在此基础上，将L2损耗作为一致性预测损耗，鼓励信息传递，调节两个分支的输出。融合损失函数表示为:

其中α， β， γ， λ是将所有损失函数统一到同一尺度的超参数。注意，Llov和L foc是预测SL, SC和S融合的Lovász-softmax损失和焦点损失的总和。

IV. EXPERIMENTS

A. Datasets

在本节中，本文提出的方法在SemanticKITTI和nuScenes上实现，并与目前最先进的方法进行比较。SemanticKITTI数据集基于KITTI Vision Benchmark的里程计任务，为点云添加额外的密集注释，共包含41000帧。将帧分割成22个连续序列，其中序列00-10用于语义分割、panoptic分割、4D panoptic分割、运动物体分割、语义场景补全5个任务的训练和验证，其余序列11-21用于任务测试。nuScenes数据集是继KITTI之后的另一个大型公共自动驾驶数据集，包含了6个摄像头、1个LiDAR、5个雷达、1个GPS和1个IMU采集的1000个道路交通场景数据，以及超过1.4M的语义分割标注和另外5个任务。将1000个场景划分为850个训练验证场景和150个测试场景。每个场景是一个20秒的序列，采样频率为2Hz。其中包括23个前景类和9个背景类，涵盖了交通场景中常见的类，为感知算法提供了全面的信息，也带来了新的挑战。

B. Implementation Details

采用ResNet-34和SalsaNext作为图像分支和点云分支的骨干。[13]之后，图像分支使用SGD优化器进行参数更新，点云分支使用Adam进行参数更新，学习速率通过余弦策略从0.001衰减到0。损失量α、β、γ和λ设为1,1,0.1和0.5。该网络在8张Nvidia RTX 3090显卡上进行训练，在SemanticKITTI上为16张，在nuScenes上为8张。所有上述设置在消融研究中是一致的。将图1中提出的不基于自信心的后期融合模块和弱监督损失网络作为基线，将上述两个模块整合到基线中，定量衡量其贡献。以平均交叉并集(mIoU)作为主要的性能指标，对5次训练的结果求出最终性能的平均值。由于SemanticKITTI只提供了前视图像，因此本文只预测了车辆前方点云的类别，在SemanticKITTI上进行验证时，仅通过这些预测计算出mIoU。SematicKITTI的序列8用于评估性能，其余序列用于训练。对于nuScenes，数据划分被设置为官方要求。

(按理说nuScenes需要显卡应该更高一点才对啊)

C. Results on SemanticKITTI

将该方法与目前在SemanticKITTI上的三维语义分割方法进行了比较。感谢[13]中作者重新部署了SOTA方法并提供了验证集上的结果，部分结果直接引用在表I中。从表I中可以看出，我们的方法在mIoU方面优于所有方法。可以看出，与基于lidar的最佳方法cylinder der3d相比提高了0.6%，与基于融合的最佳方法PMF相比提高了1.6%。此外，所提出的融合策略在8个分类中取得了最佳的性能，这表明我们的方法可以有效地将图像的密集信息合并到点云中，以弥补在点云稀疏的对象中性能的不足。然而，基于融合的方法在小尺度类上的性能普遍不如基于lidar的方法，这是因为带有稀疏标签的二维语义分割在区分形状不规则的小对象或与其他类有内部联系的小对象方面较弱，导致融合性能下降。值得注意的是，本文引入的弱监督可以提高二维语义分割的性能，相对于基线模型和其他基于融合的方法，在大多数小尺度类上的性能都是最好的。

（图像的加入应该会提高网络在小物体上的效果，作者直接引用了PMF的结果，但是我没复现出来原始精度，但是作者这个提高也太大了吧）

D. Results on nuScenes

该模型在nuScenes lidar-seg验证集上进行了验证。结果对比如表二所示，几个不同场景的定性结果如图4所示。就整体性能而言，本文提出的方法比基于lidar的最好的柱体3d算法的性能高出1.9% mIoU，并与基于SOTA融合的lifg - seg算法具有竞争力。虽然与之前的方法相比，liff - seg在几乎所有类的分割性能上都有所提高，但本文提出的方法在6个稀疏类(点数小于500)中的5个类的分割性能最好，这表明该网络对点云稀疏或小目标具有更强的鲁棒性，因为通过弱监督学习的图像细节更密集。此外，该方法在nuScenes上优于了柱面3d，因为nuScenes的点(35k点/帧)比SemanticKITTI的点(125k点/帧)更稀疏，更能体现稀疏对象分割的优势。

E. Evaluation on Fault Tolerance Performance

本节通过假设摄像机或LiDAR数据存在故障，进一步评估了本文方法的鲁棒性。在这里，训练后的模型使用SemanticKITTI验证集进行评估，该验证集的图像随机添加人工错误，包括模糊和剪切。为了比较，本文对基于融合的PMF方法进行了再训练。另外，通过对75%点云的随机下采样模拟了LiDAR的故障，并实现了基于LiDAR的气缸3d和基于融合的PMF进行对比。定性和定量结果分别见图5、图6和表三。结果表明，基线模型受到故障的影响最为严重，部分栅栏由于模糊而被误分类为建筑，部分建筑的点由于剪切而被误分类为汽车，如图5(d)中红色框部分所示。由于感知感知缺失，基于融合的PMF对相机故障有一定的抵抗能力，但仍然存在误分类问题。对于LiDAR故障，PMF受到的影响最大，因为其预测主要由点云分支决定，而下采样对圆柱体3d的影响较小，因为它是专门针对稀疏点云进行优化的，但两者都不能准确地对图6(d)和6(e)中红框中的交通标志进行分类。相比之下，该方法能有效地融合点云和图像的优势，在鲁棒性评价中达到最佳性能。

F. Ablation Study

1) Effects of Attention Based Feature Fusion:

为了研究基于注意的特征融合模块的效果，训练了两个名为“基线2”和“基线3”的模型进行比较。与基线模型相比，

基线2：只是直接添加图像和点云的特征，没有对特征进行过滤或调整权重，没有建立跳跃链接

基线3：它不融合这两种特征，即点云分支只使用点云特征（相当于没用图像）

结果如表四所示。对比表四的前三行，基线模型与基于注意的特征融合模块相比，分别比基线2和基线3高1.3%和1.1%。此外，baseline2的性能比baseline3低0.2%，即图像特征的引入对整体性能有负面影响，说明一些图像特征会干扰点云分支，这进一步证明了图像特征滤波的必要性。

2) Effects of Self-Confidence Based Late Fusion:

本部分探讨了基于自信心的后期融合模块的效果，以及几种后期融合方法的性能比较。添加所提出的后期融合模块的详细性能改进如表I所示。后期融合模块的添加综合了图像和点云在不同类别上的优势，使mIoU提高了2.6%。

但是可以看出，性能的提高主要体现在道路上的班级，而在路边的班级，如植被、建筑、围栏等效果较差。从图3中可以得出同样的结论。与基线模型(图3(d))相比，加入后期融合后的路边护栏预测性能并没有明显提高(图3(e))。由于路边分类距离LiDAR较远，点云相对稀疏，所以投影到图像坐标上的标签较为稀疏，导致对路边物体的预测性能较弱，这是意料之中的结果。此外，我们利用Eq.(12)和Eq.(13)所示的基于人工加权(LF2)和学习加权(LF3)的后期融合方法与本文方法进行比较。（）

3) Effects of Weak Supervision:

本部分分析了弱监督学习的性能增益。理论上，弱监督可以提高图像分支预测稀疏标记对象的性能，进而提高相应类的融合性能，弥补了融合后期的缺点。图7给出了弱监督学习前后图像分支的分割结果，可以定性地看到弱监督对边缘和稀疏对象分割的性能提高。图3更直观地说明了监管不力对最终结果的影响。在图3(j)和3(k)中，由于图像分支的误分类，在最终结果中不同程度地将树木在地面上的阴影预测为“树干”。加入弱监督(图3(l))可以削弱图像分支的分割误差，获得准确的分割结果。

表一显示了详细的结果。对于分数较稀疏的班级，引入弱监管后，自行车、人、建筑的mIoU分别提高了1.9%、2.7%、2.7%，整体成绩提高了1.3%。三种弱监督策略的比较如表4所示。所有策略都能提高网络的整体性能，这证明了缺乏密集图像标注限制了基于多模态融合的二维语义分割的性能，而弱监督可以有效降低这种影响。在这三种策略中，WS1需要提前生成完整的图像注释，训练过程相对简单。WS2和WS3都引入了新的计算密集型损耗，这将延长训练时间。从性能分析来看，WS3对网络性能的改善最为明显，这说明度量像素之间相似度的方法很重要，设计更加合理的弱监督策略可以进一步提高网络的性能。

V. CONCLUSION

提出了一种基于多阶段融合的自动驾驶三维语义分割方法。本文总结了制约基于融合的三维语义分割方法性能的三个因素，即特征融合机制不高效、特征不能有效表达、缺乏密集标签，并提出了相应的解决方案。提出的基于注意的特征融合模块对每个图像特征学习权重，有选择性地融合图像和点云特征，而基于自信的后期融合模块则将基于自信的图像分支和点云分支的结果融合。此外，首次将弱监督引入到多模态融合方法中，以解决常见数据集中缺乏二维密集标注的问题。大量的实验表明，该方法可以与目前最先进的方法相媲美。并对模型在传感器故障条件下的性能进行了评价，结果表明该方法具有较强的鲁棒性。将本文的思想扩展到自动驾驶的其他任务，如全景分割、基于分割的目标检测等，还需要进一步的研究。

（感觉魔改PMF的，但是效果很好？甚至没用到原来的peception loss和原先的融合模块，这个融合直接是图像特征加到激光特征里的。弱监督这里第三种方法好复杂是另外一篇论文的。

最近也在魔改PMF，但是复现不出来。打算试一下这个四层融合还有最后两者C和L的混合）