论文阅读:SalsaNext: Fast, Uncertainty-aware Semantic Segmentationof LiDAR Point Clouds for Autonomous D

SalsaNext:用于自动驾驶的LiDAR点云的快速,不确定性感知语义分割

0、摘要

本文介绍SalsaNext 不确定语义分割的一个完整的实时3 d激光雷达点云。SalsaNext是下一个版本的SalsaNet [1], encoder-decoder架构的编码器单元有一组ResNet块和解码器部分结合upsampled特性的残块。SalsaNet相比,我们引入一个新的上下文模块,将ResNet编码器模块替换为一个新带有逐渐增加感受视野的空洞残差卷积和译码器中添加像素混洗层。此外,我们还从跨步卷积转换到平均池化和应用中央丢弃策略。直接优化Jaccard指数,我们进一步将加权交叉熵损失与值列表´asz-Softmax损失[2]。我们最终加入贝叶斯来计算每个点云的epistemic和aleatoric不确定度。我们提供一个全面的定量评价Semantic-KITTI数据集[3],这表明该SalsaNext优于其他语义分割网络Semantic-KITTI排行榜中位列第一。我们也发布源代码https://github.com/TiagoCortinhal/SalsaNext。

1、引言

        场景理解是自动驾驶汽车的必要前提。语义分割通过为每个单独的感觉数据点预测有意义的类别标签来帮助获得对场景的丰富理解。实时实现这种细粒度的语义预测在很大程度上加速了完全自动驾驶。

        然而,安全关键系统,如自动驾驶汽车,不仅需要高度准确,而且需要可靠的预测,具有一致的不确定性测量。这是因为定量不确定性测量可以传播到后续单元,例如决策模块,以导致安全操纵规划或紧急制动,这在安全关键系统中是极其重要的。因此,语义分割预测与可靠的置信度估计相结合,可以大大加强安全自主的概念。

        先进的深度神经网络最近在生成具有实时性能的准确可靠的语义分割方面取得了巨大的飞跃。然而,这些方法中的大多数依赖于相机图像[4],[5],而相对较少的贡献讨论了3D LiDAR数据的语义分割[6],[7]。主要原因是,与在网格状结构中提供密集测量的相机图像不同,LiDAR点云相对稀疏,非结构化,并且具有不均匀的采样,尽管LiDAR扫描仪具有更宽的视场并且返回更准确的距离测量。

       如[8]中全面描述的,存在两种主流深度学习方法,仅解决3D LiDAR数据的语义分割:逐点和基于投影的神经网络(见图1)。前者直接在原始3D点上操作,而不需要任何预处理步骤,而后者将点云投影成各种格式,例如2D图像视图或高维体积表示。如图1所示,在准确性、运行时间和存储器消耗方面,这两种方法之间存在明显的分离。例如,基于投影的方法(在图1中以绿色圆圈示出)实现了最先进的精度,同时运行速度明显更快。虽然点式网络(红色方块)的参数数量略少,但由于处理能力有限,它们无法有效地扩展到大型点集,因此需要更长的运行时间。同样重要的是要注意,文献中的逐点和基于投影的方法都缺乏不确定性度量,即置信度分数。 

        在这项工作中,我们引入了一种新的神经网络架构,实时执行完整的三维激光雷达点云的不确定性感知语义分割。我们提出的网络建立在SalsaNet模型[1]上,因此命名为SalsaNext。SalsaNet模型具有编码器-解码器骨架,其中编码器单元由一系列ResNet块组成,并且解码器部分对残差块中提取的特征进行上采样和融合。在这里提出的SalsaNext中,我们的贡献在于以下几个方面:

  • 为了在完整的360◦ LiDAR扫描中捕获全局上下文信息,我们在编码器之前引入了一个新的上下文模块,该模块由一个在各种尺度下融合感受野的残余扩张卷积堆栈组成。
  • 为了增加感受野,我们将编码器中的ResNet块替换为一组膨胀卷积(速率为2)的新组合,其中每个卷积具有不同的内核大小(3,5,7)。我们进一步连接卷积输出,并与残差连接相结合,产生分支状结构。
  • 为了避免上采样过程中的任何棋盘效应,我们用像素洗牌层[9]取代了SalsaNet解码器中的转置卷积层,该层直接利用特征图以更少的计算对输入进行上采样。
  • 为了增强分割过程中非常基本的特征(例如边缘和曲线)的作用,通过省略dropout过程中的第一个和最后一个网络层来改变dropout处理。
  • 为了具有更轻的模型,在编码器中采用平均池化而不是步幅卷积。
  • 为了通过优化平均交叉联合得分(即Jaccard指数)来提高分割准确性,将SalsaNet中的加权交叉熵损失与Lov 'asz-Softmax损失相结合[2]。
  • 为了进一步估计每个3D LiDAR点的认识(模型)和任意(观测)不确定性,通过应用贝叶斯处理将确定性SalsaNet模型转换为随机格式。

        所有这些贡献形成了这里介绍的SalsaNext模型,该模型是SalsaNet的概率推导,具有显著更好的分割性能。SalsaNext的输入是完整LiDAR扫描的光栅化图像,其中每个图像通道以全景视图格式存储位置、深度和强度线索。最终的网络输出是逐点分类分数以及不确定性度量。

        据我们所知,这是第一个工作,显示了epistemic 和 aleatoric的不确定性估计的激光雷达点云分割任务。计算这两种不确定性在安全自主驾驶中是至关重要的,因为认知不确定性可以指示分割模型的限制,而任意不确定性突出了用于分割的传感器观测噪声。

        SemanticKITTI数据集[3]上的定量和定性实验表明,所提出的SalsaNext在像素分割准确性方面明显优于其他最先进的网络,同时具有更少的参数,因此需要更少的计算时间。SalsaNext在Semantic-KITTI排行榜上排名第一。

        请注意,我们还发布了我们的源代码和训练模型,以鼓励对该主题的进一步研究。

2、相关工作

        在本节中,将总结3D点云数据的语义分割方面的最新工作。然后,这将是一个简短的回顾有关的文献贝叶斯神经网络的不确定性估计。

A.三维点云的语义分割

        最近,在使用深度神经网络对3D LiDAR点云进行语义分割方面取得了很大进展[1],[6],[7],[10],[11]。这些先进方法之间的核心区别不仅在于网络设计,而且还在于点云数据的表示。

        全卷积网络[12],编码器-解码器结构[13]和多分支模型[5]等是用于语义分割的主流网络架构。每种网络类型都有一种独特的方式来编码不同级别的特征,然后将其融合以恢复空间信息。我们提出的SalsaNext遵循编码器-解码器设计,因为它在大多数最先进的方法中显示出有希望的性能[6],[10],[14]。

        关于非结构化和无序的3D LiDAR点的表示,有两种常见的方法,如图1所示:逐点表示和基于投影的渲染。我们建议感兴趣的读者参考[8],以了解有关3D数据表示的更多细节。

        逐点方法[15],[16]直接处理原始不规则三维点不应用任何额外的转换或预处理。共享多层perceptronbased PointNet[15],后续工作PointNet + +[16],和superpoint图SPG网络[17]被认为是在这一组。尽管这些方法是强大的小点云,其处理能力和内存需求,不幸的是,变得效率低下时满360◦激光雷达扫描。加速逐点操作,额外的线索,从相机的图像,如用作成功引入[18]。

        基于投影的方法将3D点云转换为各种格式,例如体素单元[13],[19],[20],多视图表示[21],晶格结构[22],[23]和光栅化图像[1],[6],[10],[24]。在多视图表示中,3D点云从各种虚拟相机视点投影到多个2D表面上。每个视图然后由多流网络处理,如[21]中所示。在晶格结构中,原始无组织点云被内插到置换面体稀疏晶格,其中双边卷积仅应用于占用的晶格扇区[22]。依赖于体素表示的方法将3D空间离散化为3D体积空间(即体素),并将每个点分配给相应的体素[13],[19],[20]。然而,点云中的稀疏性和不规则性在体素化数据中产生冗余计算,因为许多体素单元可能保持为空。克服LiDAR数据中稀疏性的常见尝试是将3D点云投影到2D图像空间中,无论是自上而下的鸟瞰图[1],[25],[26]还是球形范围视图(RV)(即全景视图)[7],[6],[10],[24],[27],[11]格式。与逐点和其他基于投影的方法不同,这样的2D渲染图像表示更紧凑、密集并且在计算上更便宜,因为它们可以由标准2D卷积层处理。因此,我们的SalsaNext模型最初将LiDAR点云投影到通过将每个3D点映射到球面上而生成的2D RV图像中。

        请注意,在本研究中,我们专注于仅LiDAR数据的语义分割,因此忽略了融合的多模型方法,例如LiDAR和相机数据,如[18]。

B.基于贝叶斯神经网络的不确定性预测

        贝叶斯神经网络(BNN)学习权重的近似分布,以进一步生成不确定性估计,即预测置信度。存在两种类型的不确定性:Aleatoric可以量化来自观测数据的内在不确定性的随机性,epistemic通过推断后验权重分布来估计模型不确定性的认知性,通常通过Monte Carlo抽样。

        与aleatoric不确定性不同,aleatoric捕获数据中不可减少的噪声,epistemic不确定性可以通过收集更多的训练数据来减少。例如,分割出数据集中具有相对较少训练样本的对象可能导致高epistemic认知不确定性,而高aleatoric任意不确定性可能由于传感器中固有的噪声传感器读数而发生在段边界或远处和被遮挡的对象上。贝叶斯建模有助于估计这两种不确定性类型。

        Gal等人。[28]证明了dropout可以用作贝叶斯近似来估计分类,回归和强化学习任务中的不确定性,而Kendall等人也将这一想法扩展到RGB图像的语义分割。[4]。Loquercio等人。[29]提出了一个框架,该框架通过传播从传感器产生的不确定性来扩展dropout方法,而无需重新训练。最近,这两种不确定性类型都被应用于3D点云对象检测[30]和光流估计[31]任务。据我们所知,BNN还没有被用于对3D LiDAR点云的语义分割的不确定性进行建模,这是这项工作的主要贡献之一。

        在这种情况下,与我们最接近的工作是[32],它为点云实例分割引入了概率嵌入空间。然而,这种方法既没有捕获任意的也没有捕获认识的不确定性,而是预测点云嵌入之间的不确定性。与我们的方法不同,它也没有显示上述工作如何扩展到大型和复杂的LiDAR点云。

3、方法

        在本节中,我们从点云表示开始详细描述我们的方法。然后,我们继续讨论网络架构、不确定性估计、损失函数和训练细节。

A. LiDAR点云表示

        如在[7]中,我们将非结构化3D LiDAR点云投影到球面上以生成LIDAR的本地范围视图(RV)图像。该过程导致密集且紧凑的点云表示,其允许标准卷积操作。

        在2D RV图像中,每个原始LiDAR点(x,y,z)被映射到图像坐标(u,v)为

 其中,h和w表示投影图像的高度和宽度,r表示每个点的范围,r = x2 + y2 + z2,并且f将传感器垂直视场定义为f=|fdown|+|fup|

        在[7]的工作之后,我们在投影过程中考虑了完整的360◦视场。在投影期间,3D点坐标(x,y,z)、强度值(i)和范围索引(r)被存储为单独的RV图像通道。这就产生了一个[w × h × 5]图像,并将其输入到网络中。

B. 网络架构

        所提出的SalsaNext的架构在图2中示出。网络的输入是点云的RV图像投影,如第III-A节所述。

        SalsaNext建立在基础SalsaNet模型[1]上,该模型遵循标准编码器-解码器架构,瓶颈压缩率为16。原始的SalsaNet编码器包含一系列ResNet块[33],每个块后面都有dropout和下采样层。解码器块应用转置卷积并且经由跳过连接将上采样特征与早期残差块的特征融合。为了进一步利用描述性空间线索,在跳过连接之后插入卷积的堆栈。如图2所示,我们在本研究中通过以下贡献改进了SalsaNet的基础结构:

Contextual Module上下文模块:语义分割的主要问题之一是缺乏整个网络的上下文信息。由较大的感受野收集的全局上下文信息在学习类之间的复杂相关性方面起着至关重要的作用[5]。为了聚合不同区域中的上下文信息,我们放置了一个残差扩张卷积堆栈,通过在网络的开始添加1×1和3×3内核,将较大的接收场与较小的接收场融合在一起。这有助于我们捕捉全球背景以及更详细的空间信息。

Dilated Convolution扩张卷积:感受野在提取空间特征中起着至关重要的作用。捕获更多描述性空间特征的直接方法将是扩大核大小。然而,这具有急剧增加参数数量的缺点。相反,我们将原始SalsaNet编码器中的ResNet块替换为一组有效接收场为3,5和7的膨胀卷积的新组合(见图2中的块I)。我们进一步连接每个扩张的卷积输出,并应用1 × 1卷积,然后是残差连接,以便让网络利用来自接收场中不同深度的融合特征的更多信息。这些新的残差扩张卷积块(即块I)中的每一个之后是如图2中的块II中所描绘的丢弃层和池化层。

Pixel-Shuffle Layer像素混洗层:原始SalsaNet解码器涉及转置卷积,其在参数的数量方面是计算上昂贵的层。我们用pixelshuffle层[9](见图2中的Block III)替换这些标准转置卷积,该层利用学习的特征图,通过将像素从通道维度移动到空间维度来产生上采样的特征图。更准确地说,像素重排算子将(H ×W × Cr2)特征图的元素重塑为(Hr ×Wr × C)的形式,其中H、W、C和r分别表示高度、宽度、通道数和放大率。

我们还将解码器侧的滤波器加倍,并在将像素混洗输出馈送到解码器中的扩张卷积块(图2中的块V)之前,将像素混洗输出与跳过连接(图2中的块IV)级联。

Central Encoder-Decoder Dropout中央编码器-解码器丢失:如[4]中的定量实验所示,仅向中央编码器和解码器层插入dropout会导致更好的分割性能。这是因为较低的网络层提取基本特征,例如边缘和角落[34],这些特征在数据分布上是一致的,并且丢弃这些层将阻止网络在更深层中正确形成更高级别的特征。中心丢弃方法最终导致更高的网络性能。因此,我们在每个编码器-解码器层中插入dropout,除了图2中由虚线边缘突出显示的第一个和最后一个。

Average Pooling平均合并:在基础SalsaNet模型中,通过引入额外学习参数的步幅卷积来执行下采样。鉴于下采样过程相对简单,我们假设不需要在这个级别上学习。因此,为了分配较少的存储器,SalsaNext切换到平均池化以用于下采样。

所有这些贡献都来自拟议中的SalsaNext网络。此外,我们在解码器单元之后应用1×1卷积,以使通道数与语义类的总数相同。最终的特征图最终被传递到soft-max分类器以计算像素分类分数。请注意,SalsaNext模型中的每个卷积层都采用了泄漏ReLU激活函数,然后进行批量归一化以解决内部协变移位。然后将Dropout放置在批处理标准化之后。否则,它可能会导致权重分布的偏移,这可以最小化训练期间的批量归一化效应,如[35]所示。

C. Uncertainty Estimation不确定度估计

1)Heteroscedastic Aleatoric Uncertainty异方差随机不确定性:我们可以将任意不确定性定义为两种:同方差和异方差。前者内斯了任意不确定性的类型,在不同的输入类型下保持不变,而后者可能会因不同的输入类型而有所不同。在LiDAR语义分割任务中,远点可能会引入异方差不确定性,因为将它们分配到单个类越来越困难。当执行语义分割时,在对象边缘中也可观察到相同种类的不确定性,特别是当对象与背景之间的梯度不够尖锐时。

LiDAR观测通常被噪声破坏,因此神经网络正在处理的输入是真实的世界的噪声版本。假设传感器的噪声特性是已知的(例如,在传感器数据表中可用),则输入数据分布可以由正态N(x,v)表示,其中x表示观测值,v表示传感器的噪声。在这种情况下,可以通过假设密度滤波(ADF)将噪声传播通过网络来计算任意不确定性。这种方法最初由Gast等人应用。[36],其中网络的激活函数(包括输入和输出)被概率分布取代。在这个基于ADF的改进型神经网络中的前向传递最终生成输出预测μ,其具有各自的任意不确定性σA。

2)认知不确定性:在SalsaNext中,使用权重的后验p(W)来计算认知不确定性|X,Y),这是棘手的,因此不可能分析地呈现。然而,[28]中的工作表明,dropout可以用作难治性后部的近似值。更具体地,dropout是具有L层的BNN中的后验的近似分布qθ(ω),ω = [W1] L1 =1,其中θ是一组变分参数。优化目标函数可以写为:

其中KL表示来自KullbackLeibler散度的正则化,N是数据样本的数量,S保持M个数据样本的随机集合,yi表示地面实况,fω(xi)是具有权重参数ω和p(yi)的xi输入的网络的输出|fω(xi))似然。KL项可以近似为:

 

表示具有概率p的伯努利随机变量的熵,并且K是平衡正则化项与预测项的常数。

例如,在这种情况下,负对数似然将被估计为

对于具有σ模型的不确定性的高斯似然。

为了能够测量认知的不确定性,我们在推理过程中采用蒙特卡罗抽样:我们运行n次试验并计算n个预测输出的方差的平均值:

如[29]中所介绍的,通过在范围[0,1]中的一定数量的可能速率的对数范围上应用网格搜索,为已经训练的网络估计最小化KL散度的最佳丢弃率p。在实践中,这意味着最优辍学率p将最小化:

其中,σtot表示任意不确定性和认知不确定性之和的总不确定性,D是输入数据,yd pred(p)和yd分别是预测和标签。

D. Loss Function

具有不平衡类的数据集给神经网络带来了挑战。以自行车或交通标志为例,与自动驾驶场景中的车辆相比,它们的出现要少得多。这使得网络更偏向于训练数据中出现更多的类,从而导致网络性能显着下降。

 为了科普不平衡的类问题,我们遵循SalsaNet中相同的策略,并通过用类频率的平方根倒数加权softmax交叉熵损失Lwce来为代表性不足的类添加更多价值

其中yi和(yi定义真实和预测的类别标签,fi代表第i个类别的频率,即点的数量。这加强了网络对数据集中出现较少的类的响应。

 与SalsaNet相比,我们在这里还将Lov 'asz-Softmax损失[2]纳入学习过程中,以最大化交集(IoU)得分,即Jaccard指数。IoU度量(参见第IV-A节)是评估分割性能的最常用度量。然而,IoU是一种离散的且不可导出的度量,其没有直接的方式被用作损失。在[2]中,作者在子模函数的Lov 'asz扩展的帮助下采用了这个度量。考虑到IoU是一个超立方体,其中每个顶点都是类标签的可能组合,我们放松了IoU得分,以在超立方体内部的任何地方定义。在这方面,Lov’asz-Softmax损失(Lls)可以用公式表示如下:

何处|C|表示类号∆Jc,定义了Jaccard指数的Lov´asz扩展,xi(c)∈ [0,1]和yi(c)∈ {−1,1}分别为类c的像素i的预测概率和真实值标签。

最后,SalsaNext的总损失函数是加权交叉熵和Lov 'aszSoftmax损失的线性组合,如下所示:L = Lwce + Lls。

E. Optimizer And Regularization

作为优化器,我们采用了随机梯度下降,初始学习率为0.01,在每个历元后衰减0.01。我们还应用了L2罚分,λ = 0.0001,动量为0.9。批量和空间脱落概率分别固定为24和0.2。为了防止过度拟合,我们通过应用随机旋转/平移,围绕y轴随机翻转并在创建投影之前随机丢弃点来增强数据。每个增强都以0.5的概率彼此独立地应用。

F.后处理

基于投影的点云表示的主要缺点是由于离散化误差和模糊的卷积层响应而导致的信息丢失。例如,当RV图像被重新投影回原始3D空间时,该问题出现。原因在于,在图像渲染过程期间,多个LiDAR点可能被分配给非常相同的图像像素,这导致特别是对象边缘的错误分类。例如,当对象在背景场景中投射阴影时,此效果变得更加明显。

为了科普这些与反投影相关的问题,我们采用了[7]中介绍的基于kNN的后处理技术。通过使用每个对应图像像素周围的窗口将后处理应用于每个LIDAR点,该窗口将被转换为点云的子集。接下来,在kNN的帮助下选择一组最近的邻居。使用范围而不是欧几里得距离背后的假设在于应用小窗口的事实,使得近(u,v)点的范围充当三维空间中的欧几里得距离的良好代理。有关更多详细信息,请参阅[7]。

请注意,这种后处理仅在推理期间应用于网络输出,对学习没有影响。

4、实验

我们评估了SalsaNext的性能,并在大规模具有挑战性的Semantic-KITTI数据集[3]上与其他最先进的语义分割方法进行了比较,该数据集提供了超过43 K的逐点注释的完整3D LiDAR扫描。我们遵循[7]中完全相同的协议,并将数据集分为训练,验证和测试部分。超过21 K的扫描(00到10之间的序列)用于训练,其中来自序列08的扫描特别专用于验证。剩余的扫描(序列11和21之间)用作测试分割。该数据集共有22个类,其中19个类在官方在线基准测试平台的测试集上进行了评估。我们在PyTorch中实现了我们的模型,并发布代码供公众使用https://github.com/TiagoCortinhal/SalsaNext

A. Evaluation Metric

To 评估 的 结果 我们 的 模型 , 我们 使用 Jaccard Index, 也 称为 意味着 intersection-over-union (IoU) 所有 类 , 是 由 mIoU = 1 C C i=1 |Pi∩Gi| |Pi∪Gi| , Pi 在哪 点 的 集合 类 预测 i, Gi 类 的 标签 集 我 和 || 集 的 基数

B. Quantitative Results

获得定量结果与其他先进逐点和projection-based方法饮片相比报道在表i提出模型SalsaNext大大优于其他人,导致意味着借据最高得分(59.5%)+ 3.6%过去先进方法饮片[24]。原SalsaNet相比,我们也获得超过14%提高准确性。当涉及到每个类别的性能,SalsaNext执行最好的9 19类。注意,在这些剩余的10类(如道路、植被和地形)SalsaNext同等性能的其他方法。

在[29]的工作之后,我们进一步计算了认知和任意的不确定性,而没有重新训练SalsaNext模型(见第2节)。III-C)。图3描绘了认知(模型)不确定性与每个类在整个Semantic-KITTI测试数据集中具有的点数之间的定量关系。该图具有对角分布的样本,这清楚地表明,网络对由少量点表示的稀有类别(例如摩托车和摩托车)变得不太确定。在某种程度上,在所获得的不确定性与分割精度之间还存在逆相关:当网络预测不正确的标签时,不确定性变得很高,如在表I中具有最低IoU分数(19.4%)的摩托车手的情况下。

C. Qualitative Results

对于定性评估,图4示出了由SalsaNext在Semantic-KITTI测试集上生成的一些样本语义分割和不确定性结果。

在该图中,仅出于可视化目的,分割的对象点也被投影回相应的相机图像。我们在这里强调,这些相机图像尚未用于SalsaNext的训练。如图4所示,SalsaNext可以在很大程度上区分道路、汽车和其他对象点。在图4中,为了清楚起见,我们另外示出了投影在相机图像上的估计的认知和任意不确定性值。在这里,浅蓝色的点表示最高的不确定性,而较暗的点表示更确定的预测。与图3一致,我们获得了罕见类别的高认知不确定性,例如图4中最后一帧所示的其他背景。我们还观察到,高水平的任意不确定性主要出现在片段边界周围(参见图4中的第二帧)和远处的对象上(例如,图4中的最后一帧)。在补充视频1中,我们提供了更多定性结果。

D. Ablation Study

 在这种消融分析中,我们调查了原始SalsaNet模型的每个改进的单独贡献。表II示出了在应用基于kNN的后处理之前和之后在Semantic-KITTI测试集上获得的mIoU分数的模型参数和FLOP(浮点运算)的总数(参见第III-F节)。

 如表II所示,我们在SalsaNet上的每个贡献在准确性方面都有独特的改进。后处理步骤导致准确度的一定跳跃(约2%)。当在编码器中引入扩张卷积栈时,观察到模型参数中的峰值,在解码器中添加像素混洗层后,该峰值大大降低。将加权交叉熵损失与Lov 'asz-Softmax相结合,由于Jaccard指数直接优化,因此准确性的增量最高。与原始SalsaNet模型相比,我们可以通过仅2.2%(即0.15M)的额外参数来实现59.5%的最高准确度得分。表II还示出了FLOP的数量与参数的数量相关。我们注意到,添加认知和任意不确定性计算不会引入任何额外的训练参数,因为它们是在网络训练之后计算的。

E. Runtime Evaluation

运行时性能在自动驾驶中至关重要。表III报告了与其他网络相比,SalsaNext的CNN骨干网络和后处理模块的总运行时性能。为了获得公平的统计数据,所有测量都是在同一个NVIDIA Quadro RTX 6000 - 24 GB卡上使用整个Semantic-KITTI数据集进行的。如表III所示,与RangeNet++ [7]相比,我们的方法明显表现出更好的性能,同时具有7倍的参数。当不确定性计算被排除用于与确定性模型的公平比较时,SalsaNext可以以24 Hz运行。请注意,我们达到的这种高速度明显快于主流LiDAR传感器的采样率,后者通常工作在10 Hz [39]。图1还比较了SalsaNext与其他最先进的语义分割网络在运行时间,准确性和内存消耗方面的整体性能。

5、结论

我们提出了一个新的不确定性感知语义分割网络,名为SalsaNext,它可以实时处理完整的360◦ LiDAR扫描。SalsaNext建立在SalsaNet模型的基础上,可以实现超过14%的准确率。与以前的方法相比,SalsaNext返回的mIoU分数提高了+3.6%。我们的方法不同之处在于SalsaNext还可以估计数据和基于模型的不确定性。

自己总结:

大概看的一眼,没有很仔细,感觉大家网络结构都长得差不多,这个是pmf中激光雷达流的处理网络,所以大概看一眼。创新点应该是不确定度的度量和实时性。

猜你喜欢

转载自blog.csdn.net/qq_53086461/article/details/130323985