基于RGB-D 图像的多模态特征融合

融合思想

深度图的空间信息通常有两种表现形式：距离信息和HHA 编码信息。距离信息是目标物体与采集设备表面距离的相关信息，可以反映物体在场景之内的空间位置关系，经常会以单通道图像的形式参与运算。HHA 编码信息是距离信息的空间拓展表现形式，分别为该点的水平视差，水平高度以及重心角度，经常会以三通道图像的形式参与运算。距离信息表现形式较为简单，可以方便使用，相比之下，HHA 编码信息表现形式复杂，计算量大，消耗计算资源多，但是HHA 编码信息表现形式可以让网络提取更丰富的深度特征信息。

融合核心都是如何与RGB 图像特征信息进行高效的结合，

前期融合

早期的多模态特征融合结构，主要是将两种图像进行简单的拼接操作，以组成新的四通道图像或者六通道图像输送到网络模型中。此时的网络模型是一个单分支卷积神经网络编码-解码结构，RGB 图像特征和深度图像特征的融合采用元素相加的方式，由于这类方式过于简单，并且在网络后期也没有经过其他网络模块处理，所以这种特征信息处理方法会**导致网络提取的有效信息少，模型语义分割精度低，**这类融合方式被叫作前期融合。

后期融合

后期融合采用双支流结构，网络中包含两个独立的卷积神经网络分支，这两个分支一个被命名为RGB 分支，另一个为深度分支，分别用来提取对应的RGB 特征和深度特征信息，最终两种特征信息在编码器的末端做融合处理。由于后期融合结构先对深度图像进行了卷积处理，图像噪声得到了抑制，所以相比于上文提到的前期融合结构，后期融合可以有效的提升最终的语义分割精度，但是该方法无法充分利用输入图像在编码器每个阶段的互补特征，仍旧会丢失大量的有用信息。
***

多级融合

多级融合同样采用双支流结构，核心是对编码或者解码期间的特征进行多阶段融合，可以分为三大类，分别是多级编码融合，多级解码融合和第三分支多级融合。

多级编码融合

多级编码融合结构如图所示，这种融合方法对编码期间每一个阶段的RGB 特征信息和深度特征信息都做融合处理，考虑到了两种模态特征在编码器每个阶段的互补性。相比于上文提到的前期融合和后期融合方法，这种信息处理方式可以对RGB-D 特征进行多阶段互补利用，避免大量有用信息的丢失，但是融合方式过于简单，无法深层次的挖掘互补的RGB 和深度特征信息。

多级解码融合

多级解码融合结构主要考虑解码器每个阶段的互补特征，如图所示，分别提取到的RGB 特征信息和深度特征信息可以在每一个阶段都以跳跃连接的方式传送到解码器，并与解码器本身的特征进行融合，这种信息处理方法和多级编码融合方法类似，虽然可以在多个阶段对两种模态特征进行互补利用，但是对模型分割性能的贡献度终究有限。

第三分支多级融合

第三分支多级融合结构是在原有的RGB 分支和深度分支之外添加一个新的融合分支，融合分支结构不单一，可以是与原RGB 分支和深度分支具有同样配置的卷积神经网络分支，也可以是新的融合特征模块处理结构，作用是对从RGB 分支提取到的RGB 特征信息和深度分支提取到的深度特征信息进行融合处理，结构如图所示。与其他两种多级融合方法相比，第三分支多级融合可以对RGB 特征和深度特征做更深层次的处理，具有更强的互补性，但是相应的计算参数会增多，消耗的计算资源也较大。

在实际应用中，这几类融合方法更多情况下是互相结合使用，结合使用的方法效果通常会更好。