A Novel Semantic Segmentation Algorithm for RGB-D Images Based on Non-Symmetry and Anti-Packing Patt

A Novel Semantic Segmentation Algorithm for RGB-D Images Based on Non-Symmetry and Anti-Packing Pattern Representation Model

基于非对称性和反压缩模式表示模型的RGB-D图像新型语义分割算法

基于非对称性和反压缩模式表示模型的RGB-D图像的新型语义分割算法

YUNPING ZHENG 1, YUAN XU1, SHENGJIE QIU1, WENQIANG LI1, GUICHUANG ZHONG1,AND MUDAR SAREM 2
1School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, China
2General Organization of Remote Sensing, Damascus, Syria
Corresponding author: Yunping Zheng ([email protected])
This work was supported in part by the Natural Science Foundation of Guangdong Province of China under Grant 2017A030313349, Grant
2021A1515011517, and Grant 2023A1515011288; in part by the National Natural Science Foundation of China under Grant 61300134;
and in part by the National Undergraduate Innovative and Entrepreneurial Training Program under Grant 202110561070 and Grant
202110561066.

摘要
随着深度学习技术的快速发展,图像语义分割任务的准确性得到了极大提高。但是,室内RGB-D语义分割仍然是一个具有挑战性的问题,因为室内环境的复杂性。深度传感器的出现使得深度信息逐渐被用来改善语义分割效果。将RGB特征和深度特征之间的权重拼接作为神经网络的输入特征,可以有效地提高室内语义分割任务的准确性。大多数以前的研究都集中在通过调整卷积神经网络结构来提高语义分割性能上。这些研究要么添加了注意机制,要么对输入特征进行了数据增强,但它们没有充分利用原始RGB图像的边界信息和纹理信息。本文提出了一种基于非对称性和反压缩模式表示模型(NAM)的RGB-D图像语义分割算法。所提出算法的核心思想是将传统层次图像分割提供的预分割标签和RGB-D特征进行通道连接,作为神经网络的输入,以指导语义分割任务。在流行的室内RGB-D语义分割数据集上进行了大量实验。与最先进的算法相比,本文提出的方法在几种流行的神经网络架构上改善了图像语义分割网络的性能。
关键词 深度学习 分层图像分割 图像表示 NAM RGB-D和语义分割。
Deep learning, hierarchical image segmentation, image representation, NAM, RGB-D, and semantic segmentation.

I. 简介

语义分割在计算机视觉研究中起着重要作用。它指的是在像素层面上识别图像,也就是标记图像中每个像素所属的对象类别。目前,语义分割已被广泛应用于自动驾驶、机器人感知和医学图像诊断等智能任务[1], [2], [3], [4], [5]。近年来,基于深度学习的图像分割方法发展迅速。自Shelhamer等人[6]提出全卷积神经网络(FCN)以来,卷积神经网络(CNN)在语义分割任务中取得了令人瞩目的成绩。因此,它们被广泛地应用于语义分割领域。研究人员提出了一些著名的神经网络骨架,如AlexNet[7]、VGGNet[8]和ResNet[9]。

语义场景感知和理解是移动机器人在各种环境中运行的两个关键任务。然而,由于室内环境的复杂性,室内场景的语义分割仍然是一个具有挑战性的问题。例如,室内光线的变化和物体之间的遮挡很容易导致大量的像素被错误分类,从而影响最终的语义分割结果。随着深度传感器的广泛使用[10],RGB-D数据的出现推动了RGB-D语义分割的进步。RGB特征描述了物体颜色和亮度等外观信息,而深度特征则包含与视点场景中物体表面的距离有关的信息。近年来,一些研究[11]、[12]、[13]将颜色信息和深度信息结合起来作为卷积神经网络的输入,因此取得了良好的分割效果。

在室内语义分割的研究中,近年来的许多研究都集中在挖掘RGB颜色特征和深度特征在空间和形状上的互补信息,但这些研究都忽略了室内物体固有的边界特征和纹理特征。因此,他们未能充分挖掘原始RGB图像中纹理、形状和颜色特征之间的互补信息。然而,一个基于非对称性和反压缩模式表示模型(NAM)的分层图像分割框架被提出来,根据图像的各种特征将原始图像分成不同区域的层[14]。

鉴于上述问题,通过结合RGB颜色特征和深度特征,我们提出了一种基于非对称性和反压缩模式表示模型的RGB-D图像的新型语义分割算法,称为NAMLab。该算法首先通过定义两个像素在Lab色彩空间中的欧几里得距离,使图像像素快速有效地合并成NAMLab块。其次,该算法定义了两个基于NAMLab的区域之间的不相似性,并迭代执行基于NAMLab的相邻区域合并为更大区域的算法,逐步生成一个分割树状图。最后,从树状图中提取层次化的分割标签。此外,在我们提出的算法中,这些标签被添加到卷积神经网络的多通道输入中。由NAMLab算法生成的分层块状标签提供了图像中物体的多层边界特征,可以有效地指导语义分割任务。这种策略通过在神经网络的输入中加入通道级特征来提高语义分割任务的性能,这可以很容易地应用于大多数卷积神经网络。

图1解释了室内场景的语义分割任务,从中可以看出深度信息忽略了物体本身固有的边界特征和形状特征,而提议的NAM区域标签注意到了更多的细节。

为了验证我们提出的技术的效率,我们对RGB-D图像语义分割基准NYUDv2[15]进行了全面分析。同时,我们将提议的策略应用于五个流行的语义分割架构。本文的主要创新体现在以下几个方面:

首先,我们提出了一个以NAM特征为指导的语义分割策略来处理室内RGB-D语义分割任务。

其次,将NAM分层特征、RGB特征和深度特征按通道连接起来作为神经网络的输入。通过结合传统图像分割方法的优势和基于深度学习的图像语义分割方法的优势,语义分割任务的性能得到了提高。

最后,提出的实验结果表明,本文提出的策略可以有效地提高语义分割任务的性能,在流行的RGB-D图像数据集上也显示出更好的分割结果。此外,本文提出的策略可以很容易地应用于不同的语义分割网络。

本文的其余部分组织如下。第二节介绍了关于图像语义分割和分层图像分割的相关工作。在第三节中,详细描述了一种基于NAMLab模型的RGB-D图像的新型语义分割算法。第四部分介绍了我们的算法与最先进的算法相比的实验结果。第五部分介绍了结论和未来可能的工作。

II. 相关工作

A. 基于卷积神经网络的图像分割

自从Shelhamer等人[6]提出FCN以来,卷积神经网络已被广泛用于语义分割的任务中。FCN用卷积层取代了分类网络中的全连接层,因此FCN可以输入任意大小的原始图像,然后通过上采样生成相应大小的输出。然而,CNN的卷积和池化操作大大降低了原始图像的分辨率和尺寸,造成了细节的损失。针对这个问题,Liu等人[16]提出了ParseNet,它通过增加上下文模块来获得全局信息,从而改进了FCN。另外,在FCN的基础上,Ronneberger等人[17]提出了U型网。U型网络结构在编码器中向下采样四次,在解码器中相应向上采样四次。在同一阶段,它采用了一个跳过的连接结构,而不是直接监督高层语义特征。高层语义特征图被恢复到原始图像的分辨率,从而同时获得了上下文信息和位置信息。Zhao等人[18]提出了金字塔场景解析网络(PSPNet),该网络采用扩张网络策略的特征提取器,从输入图像中提取模式,聚合不同区域的上下文信息。在图像语义分割领域,最著名的框架之一是DeepLab系列。DeepLab[19]使用了反卷积核来避免深度卷积神经网络(DCNN)中的最大池化和下采样造成的信息损失。它采用了条件随机场(CRF)来提高模型捕捉细微细节的能力。然后,DeepLab V2[20]使用了Atrous Spatial Pyramid Pooling(ASPP),它又使用了不同采样率的多个Atrous卷积来整合多尺度的特征。另外,在DeepLab V2中,ResNet被替换为VGG16,并且使用了不同采样率的多个阿斯特卷积核来提取特征。DeepLab V3[21]删除了CRF,改进了ASPP模块,并审查了非线性卷积。它在级联模块和金字塔集合框架下扩展了接受场以提取多尺度信息。DeepLab V3+[22]通过在语义分割任务中采用Xception模型和在编码器-解码器结构中使用空间金字塔池(SPP)模块进一步扩展了DeepLab V3。编码器逐渐缩小特征图以提取丰富的语义信息,而解码器则将其还原。

B. 分层图像分割

与基于深度学习的图像分割方法相比,传统的图像分割方法更注重挖掘子区域间的颜色差异、互补信息以及纹理和形状特征间的层次信息。事实上,传统的图像分割方法可以有效地弥补深度学习方法的不足之处。现在人们普遍认为,基于深度学习的分割算法的性能正在趋于平稳,尤其是在某些应用领域,如医学图像分析[23]。为了提高性能,[23]中的作者认为有必要进一步探索基于CNN的图像分割模型与突出的 "经典 "模型的图像分割方法的结合。CNN与图形模型的整合已经被研究过了,但是与主动轮廓线、图形切割和其他分割模型的整合是最近才开始的,值得进一步研究[23]。

流行的平均移动算法(MShift)[24]、基于图形的图像分割算法(GBIS)[25]和多尺度归一化切割算法(MNCut)[26]实际上是在寻找一个给定图像的最佳分割方式。尽管已经提出了许多新的图像分割算法,但到目前为止,如何有效地将图像分割成对人类视觉感知有 "意义 "的区域,并确保分割后的区域在不同的分辨率下是一致的,仍然是一个非常具有挑战性的任务。

以前的传统图像分割方法大多只能产生一个单一的分割结果。然而,一些研究者认为,具有不同目标分割数的多层分割结果可能能够更好地分割图像。Syu等人[27]提出了一个基于迭代收缩和合并的分层分割框架。他们指出,一个只能产生唯一分割结果的算法可能不是一个合适的方法。Arbeláez等人[28]提出了一种用于分层图像分割的gPbOWT-UCM算法。该算法首先通过gPb计算每个像素作为边界的可能性。然后,OWT将gPb的结果转换为多个封闭区域。最后,UCM将上述区域集转化为一棵分层树。

受NAMLab和 "全局第一 "不变感知理论的启发,Zheng等人[14]提出了一个完全不同的分层图像分割框架,因为他们不需要使用通常用于能量函数和图拉普拉斯矩阵的亲和值定义。此外,他们还提出了一个快速的基于NAMLab的分层图像分割算法,然而,这也是一种传统的分割方法。

C. 基于深度特征和RGB特征融合的图像细分

随着深度传感器的广泛应用,研究人员可以轻松获得场景中的深度信息。对RGB-D图像的研究也取得了很大进展。在目前的RGB-D图像语义分割任务中,研究人员致力于三类方法的研究。第一类是提出一种融合深度特征和RGB特征的策略。第二类是为RGB-D数据设计一个专门的网络结构[13], [29]. 第三类是设计增加或替换卷积层的结构[30], [31]。然而,我们在本文中提出的策略属于第一类。

对于第一类,Couprie等人[32]提出了一种预融合方法,即对图像的RGB特征和深度特征进行通道级拼接,作为卷积神经网络的输入。Gupta等人[33]提出了一种编码方法,通过提取水平差异、离地高度和像素的局部表面法线角度(HHA),将单通道深度图像转换成三通道图像。融合可以更好地指导室内语义分割任务。FuseNet[34]和RedNet[35]将深度特征融合到RGB编码器中,这遵循了这样的直觉:使用互补的深度信息可以进一步增强语义更丰富的RGB特征。

至于第二类,Jiang等人[35]提出了一种融合骨干阶段的多层次特征的门融合方法。Fooladgar和Kasaei[29]提出了一个高效的编码器-解码器模型,该模型带有一个基于注意力的融合块,以整合深度模式和RGB模式的特征图之间的互动。Hu等人[13]提出了一个注意力互补网络,以选择性地收集来自RGB和深度分支的特征。

至于第三类,Chen等人[36]提出了基于手工制作的高斯函数的深度感知卷积,通过利用像素之间的深度相似性来加权。Cao等人[37]设计了一个形状感知卷积层,可以在语义分割中取代普通卷积层,使网络在必要时更加关注形状信息,提高RGB-D语义分割任务的性能。

III. 基于NAM的RGB-D图像语义分割算法 在本节中,我们简要描述了NAM方法。然后,介绍了基于NAM的分层图像特征。最后,提出了一种基于NAM的RGB-D图像的语义分割算法。

A. NAM的描述

非对称性和反压缩模式表示模型(NAM)[38], [39]是一个反压缩问题。NAM的想法可以简单描述如下: 给出一个压缩模式和n个预定义的不同形状的子图案,从压缩模式中挑选出这n个子图案,然后用这些子图案的组合表示压缩模式。
NAM的理念可以描述如下: 给出一个压缩好的图案和预定义的不同形状的子图案,从压缩好的图案中挑选出这些子图案,然后用这些子图案的组合来表示压缩好的图案。以下是对NAM的一个抽象描述。假设原始图案为0,重建图案为 Γ ′ \Gamma ' Γ。那么,NAM就是一个从 Γ \Gamma Γ Γ ′ \Gamma ' Γ的转换模式。变换的过程可以写成如下:

Γ ′ = T ( Γ ′ ) (1) \Gamma ' = T(\Gamma ') \tag{1} Γ=T(Γ)(1)

其中 T ( ⋅ ) T(·) T()是一个变换或编码函数。编码的过程可以通过以下表达式得到:
Γ ′ = ∪ j = 1 n p j ( v , A ∣ A = { a 1 , a 2 , ⋯   , a m i } ) + ε ( d ) (2) Γ ^ { \prime } = \cup _ { j = 1 } ^ { n } p _ { j } ( v , A | A = \{ a _ { 1 } , a _ { 2 } , \cdots , a _ { m_ i } \} ) + ε ( d ) \tag{2} Γ=j=1npj(v,AA={ a1,a2,,ami})+ε(d)(2)
其中 Γ ′ \Gamma ' Γ是重建模式; P = p 1 , p 2 , . . . . . . p n P = p_1, p_2, ...... p_n P=p1,p2,......pn是一组预定义的子图案;n是子图案类型的数量; p j ∈ P p_j∈P pjP是第 j j j个子图案( 1 ≤ j ≤ n 1≤j≤n 1jn); v v v p j p_j pj的值; A = a 1 , a 2 , . . , a m i A={a_1, a_2, . . , a_{m_i}} A=a1,a2,..,ami是子图案 p j ( 1 ≤ j ≤ n ) p_j(1≤j≤n) pj(1jn)的参数集。如果两个子模式的类型不同,A中的参数的数字和含义也不同。

B. 基于NAM的层次化图像特征

根据人类的视觉特征,为了在感知上统一表示彩色图像,基于NAMLab的特征表示包含了更强大的图像局部和整体特征[14]。提出的特征表示方法包含了颜色、空间、尺寸和纹理特征,以提高其处理不同图像实例的能力。基于NAMLab的区域合并规则包括三个模块,即表示模块、合并模块和删除模块。

在表示模块中,该模型的思路是通过不对称反转布局的模式来表示输入图像的块。通过光栅扫描对一幅图像进行逐行扫描,并根据Lab颜色和Gouraud公式判断相邻像素之间的距离,以扩大区域,从而将原始图像划分为一个初始的NAMLab矩形区域。最后,用块图二维向量记录每个像素对应的NAMLab矩形区域编号,同时记录其Lab特征均值和方差。

在合并模块中,对于两个相邻的NAMLab区域,当两个Lab特征的均值和方差之差分别小于两个特定的阈值时,这两个NAMLab块可以被合并。一般过程如下: 以栅格方式扫描每个NAMLab块。对于当前的NAMLab块,首先从西边界的左侧开始,从下往上扫描所有相邻像素的NAMLab块。如果当前相邻像素所属的NAMLab块与当前NAMLab块不同,则根据基于NAMLab的区域之间的不相似性是否超过一定的阈值来判断是否合并这两个NAMLab块,这将在后面描述。然后,从北部边界开始,从左到右扫描所有相邻的像素。如果当前相邻像素所属的NAMLab区块与当前NAMLab区块不同,则根据基于NAMLab的区域之间的不相似性判断是否将两个NAMLab区块合并。这一扫描过程不断重复,直到从北部边界开始的所有相邻像素都被处理完毕。
在NAMLab区块的合并过程中,有一些小的残留区域,其颜色的平均值和方差与它们相邻的重合区的颜色平均值和方差有很大的不同,所以它们不能被合并。因此,我们为区域的大小定制了一个阈值。当当前区域的大小小于阈值时,当前区域将被合并为所有相邻区域中差异最小的区域。

以上述方法得到的区域为底层节点,相邻的区域可以合并成一个更大的区域,从而逐渐形成一个层次分割的树状图。最后,可以得到分层分割的结果。图3显示了基于NAMLab的分层图像分割的整个流程。每个分割图中的不同颜色代表不同的区域。原始图像经过表示模块、合并模块、去除模块和扫描模块。最后,在图3的最后一栏中,从上到下分别输出不同区域编号的分层图像特征,如10、20、30、40、50和60。
为了测量基于NAMLab的区域i和区域j之间的不相似性,首先应该定义一些公式,如下所述。两个区域之间的区域大小的异同度测量定义如下:

其中 n i n_i ni n j n_j nj分别表示区域i和区域j的像素总数。
两个区域之间的纹理特征的异同度量定义如下:

其中 w l d i wld_i wldi w l d j wld_j wldj代表区域 i i i和区域 j j j的纹理特征向量,这些向量是根据Weber局部描述器的理论得到的[40]。

两个区域之间颜色特征的不相似度量定义如下:

其中 c i c_i ci c j c_j cj分别是区域i和区域j的平均LAB颜色。
为了定义两个区域边界上的平均色差的异同度量,在图像中的边界区域上应用一个3×3的局部窗口。

其中bri表示区域i和边界区域的交汇点,所以 p ∈ b r i p∈b_{r_i} pbri q ∈ b r j q∈b_{r_j} qbrj表示边界两侧的区域。
对于一个代表区域i的像素 p i p_i pi,在 p i p_i pi处检查一个5×5的局部窗口 w p i w_{p_i} wpi,并找到其中最常见的指数,表示为 I p i I_{p_i} Ipi。两个区域之间的空间交织的异同度量定义如下:在这里插入图片描述

其中函数ψ(-)定义为:

式中, D i j D_{ij} Dij描述了基于NAMLab的区域i和区域j之间的异同度,它定义了两个区域i和j之间更丰富和全面的异同度,如下所示:

关于参数 α 、 β α、β αβ γ γ γ的选择,它们分别是颜色特征、纹理特征和边缘特征在测量两个NAMLab区域之间差异的任务中的权重,而λ是测量空间交织的修正系数。它们的选择是基于实验经验的,根据图像分割的效果不断调整四个参数的值,从而找到最佳值。具体来说, α = 1.0 , β = 1.97 , γ = 1.97 , λ = 67.0 α=1.0, β=1.97, γ=1.97, λ=67.0 α=1.0,β=1.97,γ=1.97,λ=67.0

C. 基于NAM的RGBD图像的语义分割策略

随着深度传感器的普及,研究人员越来越多地使用图像的深度特征来指导语义分割任务。在深度图像的基础上,Gupta等人[33]提出了一种HHA编码方法,使用每个像素的三个通道对深度图像进行编码,这三个通道是 水平差异、离地高度和像素的局部表面法线的角度。

图2显示了RGB原始图像、深度图像、HHA特征图像和NAMLab的分层特征图像。

与专门为RGB-D语义分割设计的网络结构不同,本文提出的基于NAMLab层次特征指导的策略是一种更通用的方法,因此它可以很容易地应用于大多数卷积神经网络的输入,并且不限于RGB-D语义分割任务。

图4描述了整个策略。为了利用语义分割中的高层骨干,我们需要将RGB原始图像、深度图像和NAMLab层次特征图像在通道维度上连接起来,作为卷积神经网络的输入。深度图像可以是深度图像或HHA图像,网络结构以FCN为例。符号C表示通道级串联,符号OR表示输入的深度信息是HHA特征或深度特征。

IV. 实验

本文提出的策略是在开源的深度学习框架Pytorch上实现的。除了基线实验参考了其他研究者的实验数据外,我们所有的实验都是在相同的硬件和软件环境下进行的。GPU使用的是NVIDIA TITAN Xp。CPU是Inter® Xeon®CPU E5-2680 v4 @ 2.40GHz。内存的容量为16GB。为了验证所提方法的有效性,我们在流行的RGB-D室内图像数据集NYUDv2[15]上评估我们的方法,并进行消融实验。NYUDv2数据集包含1449幅室内RGB-D图像,其中795幅用于训练,654幅用于测试。在这个数据集中,用于训练和测试的所有图像像素分别被标记为13类(即NYUDv2-13)和40类(即NYUDv2-40)。

我们的实验结果是通过以下协议和指标进行评估的。为了便于解释,我们注意到以下的符号细节[41]: 假设共有 k + 1 k+1 k+1个类(从 L 0 L_0 L0 L k L_k Lk,包括一个空白类或背景), p i j p_{ij} pij是推断出的 i i i类属于 j j j类的像素数量。
Pixel Acc(PA)表示预测的正确像素值占总像素值的百分比,其定义如下:

Mean Acc(MPA)表示所有类别的像素准确度之和的平均值,定义如下:

Mean IoU(MIoU)表示所有类别的预测与地面实况的交集和联合的平均比率,定义如下:
![](https://img-blog.csdnimg.cn/9a69f1a6d40f439c8d5e7e87f3084ca2.png#pic_center# =50%x#pic_center# =50%x#pic_center# =50%x)

最后,Fw IoU(FWIoU)是对原始Mean IoU的改进,它根据每个类别的出现频率对其重要性进行加权,其定义如下:
![](https://img-blog.csdnimg.cn/a251f365507244ffb8d2738eebc002a9.png#pic_center# =50%x#pic_center# =50%x)

我们使用在ImageNet[39]上预训练的ResNet[9]和ResNeXt[42]模型来初始化骨干网。DeepLabV3+被用作主要的语义分割网络架构,作为基线方法。对于所有的基线方法,输入都是RGB原始图像和HHA深度图像的通道连接。与基线方法相比,我们只改变了输入的特征类型(即NAMLab分层特征与原始图像和深度图像的通道连接),而没有对其他设置做任何改变,从而保证了获得的性能改进是由于我们提出的方法,而不是由于其他因素。此外,除非另有说明,在我们所有的实验中都没有采用多尺度翻转(MS-F)、条件随机场CRF[19]或数据增强等策略。

在NYUDv2-40数据集上,我们还对多种流行的语义分割网络架构进行了实验,如DeepLabV3+、DeepLabV3、UNet、PSPNet和FPN。骨干网采用了在ImageNet上预训练的ResNet101模型。在同一数据集上,我们还进行了消融实验,网络架构是DeepLabV3+,骨干仍然是在ImageNet上预训练的ResNet101模型。

A. 基于NAM的RGBD图像SEMANTIC分割策略

基线方法和我们的方法在NYUDv2-13上使用不同骨干的结果显示在Tab.1中。采用的架构是DeepLabV3+。在Tab. 1中,NAM6意味着我们对NAMLab层次特征、RGB原始图像和HHA深度图像的六层进行了通道连接,然后我们将它们输入到语义分割网络。这六层由第10层、第20层、第30层、第40层、第50层和第60层组成。从表1中可以看出,我们的策略在不同的主干上总体上优于基线方法。

基线方法和我们的方法在NYUDv2-40上使用不同骨干网的结果显示在表2中。而NAM-1意味着我们对第60层的NAMLab分层特征、RGB图像和HHA深度图像进行了通道级的连接,这些图像被作为语义分割网络的输入。可以看出,我们的策略在总体上取得了一些改进。
在相同的NYUDv2-40数据集上进行实验,没有修改或增强,从表3可以看出,我们的策略在所有四个指标上都取得了更好的结果。

B. 不同架构上的实验

我们提出的策略适用于语义分割网络的输入阶段,因此它可以很容易地适用于大多数卷积神经网络。我们的方法还针对一些有代表性的语义分割架构进行了评估,如DeepLabV3+、DeepLabV3、UNet、PSPNet和FPN。实验结果显示在Tab.4中,以确定它是否具有普适性。
在这里插入图片描述

Tab.4中可以看出,除了PSPNet,我们的策略在所有的架构上都取得了性能的提高。

C消融实验

我们进行了消融实验来验证NAM-6和NAM-1特征在与不同深度和HHA图像拼接时的效果。从表5可以看出,当架构为DeepLabV3+,骨干为ResNet101时,无论Depth图像还是HHA图像被连接起来作为输入,NAM-1和NAM-6的设置都能提高语义分割任务的性能。Tab.5中的RGB、Depth和HHA代表了添加到网络输入中的特征类型。

结论

现在人们普遍认为,基于深度学习的分割算法的性能正在趋于平稳,尤其是在某些应用领域,如医学图像分析。为了将性能提升到更高的水平,我们进一步探索了基于CNN的图像分割模型与最近发表的突出的 "经典 "的基于NAMLab的图像分割方法的结合。该算法的核心思想是将传统的分层图像分割提供的预分割标签和RGB-D特征的通道连接作为神经网络的输入,以指导语义分割任务。本文对流行的室内RGB-D语义分割数据集进行了广泛的实验。与最先进的算法相比,本文提出的实验结果表明,我们提出的方法提高了几个流行的神经网络架构上的图像语义分割网络的性能。
然而,RGB-D室内语义分割模型的性能仍有进一步提高的空间。在未来,我们计划设计一个独特而有效的网络架构,用于提取NAM分层特征之间的互补信息,或NAM特征、RGB特征和深度特征的互补信息。我们相信,这项工作将进一步优化语义分割任务的模型。

REFERENCES

[1] W. Zhou, J. Liu, J. Lei, L. Yu, and J.-N. Hwang, ‘‘GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation,’’ IEEE Trans. Image Process., vol. 30, pp. 7790–7802, 2021.
[2] X. Ren, S. Ahmad, L. Zhang, L. Xiang, D. Nie, F. Yang, Q. Wang, and D. Shen, ‘‘Task decomposition and synchronization for semantic biomedical image segmentation,’’ IEEE Trans. Image Process., vol. 29, pp. 7497–7510, 2020.
[3] Y. Cai, L. Dai, H. Wang, and Z. Li, ‘‘Multi-target pan-class intrinsic relevance driven model for improving semantic segmentation in autonomous driving,’’ IEEE Trans. Image Process., vol. 30, pp. 9069–9084, 2021.
[4] S. Zhou, D. Nie, E. Adeli, J. Yin, J. Lian, and D. Shen, ‘‘High-resolution encoder–decoder networks for low-contrast medical image segmentation,’’ IEEE Trans. Image Process., vol. 29, pp. 461–475, 2020.
[5] T. Wu, S. Tang, R. Zhang, J. Cao, and Y. Zhang, ‘‘CGNet: A light-weight context guided network for semantic segmentation,’’ IEEE Trans. Image Process., vol. 30, pp. 1169–1179, 2021.
[6] E. Shelhamer, J. Long, and T. Darrell, ‘‘Fully convolutional networks for semantic segmentation,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 4, pp. 640–651, Apr. 2017.
[7] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ‘‘ImageNet classification with deep convolutional neural networks,’’ Commun. ACM, vol. 60, no. 2, pp. 84–90, Jun. 2012.
[8] K. Simonyan and A. Zisserman, ‘‘Very deep convolutional networks for large-scale image recognition,’’ 2014, arXiv:1409.1556.
[9] K. He, X. Zhang, S. Ren, and J. Sun, ‘‘Deep residual learning for image recognition,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 770–778.
[ 10] Z. Zhang, ‘‘Microsoft Kinect sensor and its effect,’’ IEEE MultiMedia, vol. 19, no. 2, pp. 4–10, Feb. 2012.
[11] Y. He, W.-C. Chiu, M. Keuper, and M. Fritz, ‘‘STD2P: RGBD semantic segmentation using spatio-temporal data-driven pooling,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7158–7167.
[12] X. Gao, M. Cai, and J. Li, ‘‘Improved RGBD semantic segmentation using multi-scale features,’’ in Proc. Chin. Control Decis. Conf. (CCDC), Jun. 2018, pp. 3531–3536.
[13] X. Hu, K. Yang, L. Fei, and K. Wang, ‘‘ACNET: Attention based network to exploit complementary features for RGBD semantic segmentation,’’ in Proc. IEEE Int. Conf. Image Process. (ICIP), Sep. 2019, pp. 1440–1444.
[14] Y. Zheng, B. Yang, and M. Sarem, ‘‘Hierarchical image segmentation based on nonsymmetry and anti-packing pattern representation model,’’ IEEE Trans. Image Process., vol. 30, pp. 2408–2421, 2021.
[15] N. Silberman, D. Hoiem, P. Kohli, R. Fergus, S. Lazebnik, P. Perona, Y. Sato, and C. Schmid, ‘‘Indoor segmentation and support inference from RGBD images,’’ in Computer Vision—ECCV. Berlin, Germany: Springer, 2012, pp. 746–760.
[16] W. Liu, A. Rabinovich, and A. C. Berg, ‘‘ParseNet: Looking wider to see better,’’ 2015, arXiv:1506.04579.
[17] O. Ronneberger, P. Fischer, T. Brox, J. Hornegger, W. M. Wells, and A. F. Frangi, ‘‘U-Net: Convolutional networks for biomedical image segmentation,’’ in Medical Image Computing and Computer-Assisted Intervention— MICCAI. Cham, Switzerland: Springer, 2015, pp. 234–241.
[18] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, ‘‘Pyramid scene parsing network,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 6230–6239.
[19] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘‘Semantic image segmentation with deep convolutional nets and fully connected CRFs,’’ 2014, arXiv:1412.7062.
[20] L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘‘DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834–848, Jun. 2016.
[21] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, ‘‘Rethinking atrous convolution for semantic image segmentation,’’ 2017, arXiv:1706.05587.
[22] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, ‘‘Encoder– decoder with atrous separable convolution for semantic image segmentation,’’ 2018, arXiv:1802.02611.
[23] S. Minaee, Y. Y. Boykov, F. Porikli, A. J. Plaza, N. Kehtarnavaz, and D. Terzopoulos, ‘‘Image segmentation using deep learning: A survey,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 44, no. 7, pp. 3523–3542, Jul. 2022.
[24] D. Comaniciu and P. Meer, ‘‘Mean shift: A robust approach toward feature space analysis,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 5, pp. 603–619, May 2002.
[25] P. F. Felzenszwalb and D. P. Huttenlocher, ‘‘Efficient graph-based image segmentation,’’ Int. J. Comput. Vis., vol. 59, no. 2, pp. 167–181, Sep. 2004.
[26] T. Cour, F. Benezit, and J. Shi, ‘‘Spectral segmentation with multiscale graph decomposition,’’ in Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), vol. 2, Jun. 2005, pp. 1124–1131.
[27] J.-H. Syu, S.-J. Wang, and L.-C. Wang, ‘‘Hierarchical image segmentation based on iterative contraction and merging,’’ IEEE Trans. Image Process., vol. 26, no. 5, pp. 2246–2260, May 2017.
[28] P. Arbeláez, M. Maire, C. Fowlkes, and J. Malik, ‘‘Contour detection and hierarchical image segmentation,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 5, pp. 898–916, Aug. 2011.
[29] F. Fooladgar and S. Kasaei, ‘‘Multi-modal attention-based fusion model for semantic segmentation of RGB-depth images,’’ 2019, arXiv:1912.11691.
[30] W. Wang and U. Neumann, ‘‘Depth-aware CNN for RGB-D segmentation,’’ in Proc. Eur. Conf. Comput. Vis. (ECCV), Sep. 2018, pp. 135–150.
[31] Y. Xing, J. Wang, and G. Zeng, ‘‘Malleable 2.5 D convolution: Learning receptive fields along the depth-axis for RGB-D scene parsing,’’ in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland: Springer, 2020, pp. 555–571.
[32] C. Couprie, C. Farabet, L. Najman, and Y. LeCun, ‘‘Indoor semantic segmentation using depth information,’’ 2013, arXiv:1301.3572.
[33] S. Gupta, R. Girshick, P. Arbeláez, and J. Malik, ‘‘Learning rich features from RGB-D images for object detection and segmentation,’’ in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland: Springer, 2014, pp. 345–360.
[34] C. Hazirbas, L. Ma, C. Domokos, and D. Cremers, ‘‘FuseNet: Incorporating depth into semantic segmentation via fusion-based CNN architecture,’’ in Computer Vision—ACCV. Cham, Switzerland: Springer, 2016, pp. 213–228.
[35] J. Jiang, L. Zheng, F. Luo, and Z. Zhang, ‘‘RedNet: Residual encoder– decoder network for indoor RGB-D semantic segmentation,’’ 2018, arXiv:1806.01054.
[36] L.-Z. Chen, Z. Lin, Z. Wang, Y.-L. Yang, and M.-M. Cheng, ‘‘Spatial information guided convolution for real-time RGBD semantic segmentation,’’ IEEE Trans. Image Process., vol. 30, pp. 2313–2324, 2021.
[37] J. Cao, H. Leng, D. Lischinski, D. Cohen-Or, C. Tu, and Y. Li, ‘‘ShapeConv: Shape-aware convolutional layer for indoor RGB-D semantic segmentation,’’ in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 7068–7077.
[38] H. Liang, S. Zhao, C. Chen, and M. Sarem, ‘‘The NAMlet transform: A novel image sparse representation method based on non-symmetry and anti-packing model,’’ Signal Process., vol. 137, pp. 251–263, Aug. 2017.
[Online]. Available: https://www. sciencedirect.com/science/article/pii/S0165168417300282
[39] Y. Zheng and M. Sarem, ‘‘A fast region segmentation algorithm on compressed gray images using non-symmetry and anti-packing model and extended shading representation,’’ J. Vis. Commun. Image Represent., vol. 34, pp. 153–166, Jan. 2016.
[Online]. Available: https://www.sciencedirect.com/science/article/pii/S1047320315002205
[40] J. Chen, S. Shan, C. He, G. Zhao, M. Pietikäinen, X. Chen, and W. Gao, ‘‘WLD: A robust local image descriptor,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 32, no. 9, pp. 1705–1720, Sep. 2010.
[41] A. Garcia-Garcia, S. Orts-Escolano, S. Oprea, V. Villena-Martinez, and J. Garcia-Rodriguez, ‘‘A review on deep learning techniques applied to semantic segmentation,’’ 2017, arXiv:1704.06857.
[42] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He, ‘‘Aggregated residual transformations for deep neural networks,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5987–5995.
[43] Y. Cheng, R. Cai, Z. Li, X. Zhao, and K. Huang, ‘‘Locality-sensitive deconvolution networks with gated fusion for RGB-D indoor semantic segmentation,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 1475–1483.
[44] S. Lee, S.-J. Park, and K.-S. Hong, ‘‘RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 4990–4999.
[45] D. Lin, G. Chen, D. Cohen-Or, P.-A. Heng, and H. Huang, ‘‘Cascaded feature network for semantic segmentation of RGB-D images,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 1320–1328.
[46] Y. Liu, Q. Fan, S. Zhang, H. Dong, T. Funkhouser, and L. Yi, ‘‘Contrastive multimodal fusion with TupleInfoNCE,’’ in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 754–763.
[47] Z. Xue, S. Ren, Z. Gao, and H. Zhao, ‘‘Multimodal knowledge expansion,’’ in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 854–863.

猜你喜欢

转载自blog.csdn.net/wagnbo/article/details/131154593