多模态(RGB-D)——CIMDL

版权声明: https://blog.csdn.net/u013841196/article/details/82939478
  • 《Correlated and Individual Multi-Modal Deep Learning for RGB-D Object Recognition》
    2016, Ziyan Wang,Jiwen Lu et al. CIMDL

作者提出了针对RGB-D物体识别的相关和个体多模态深度学习方法(CIMDL)。
1.网络结构:
RGB-D,sharable and modalspecific information can be simultaneously and explicitly exploited.
在这里插入图片描述
CIM Layer的设计有3个目的:
1)产生两种模态相关联的部分
2)提取两种模态具有区分力部分的特征
3)自主的学习相关和独立部分的权重,为了特征融合
本文采用ResNet作为基本的网络结构,单独的对RGB和Depth进行训练。
对于depth network,作者采用法向图(surface normals)代替深度图作为网络的输入。

2.CIMDL Layer细节
其中Xi表示RGB-ResNet和SN-ResNet一个bact_size(N张图片)倒数第二层输出的激活值;
Qi和Vi表示(MxM)的特征映射矩阵,转变原始的特征到modal-specific domain and the correlated domain;L表示输出的类别。
多模态学习模型是利用RGB和Depth相关的特性,外加单独模态的特性和调整特征不同部分的权重来提高识别率。
模型中3个关键的特性:
1)一种多模态学习策略,自动的分解特征进去相关部分和独立部分。
2)确保相关部分和独立部分的区分度和正交性
3)在数据驱动的方式学习不同部分的权重去提高识别表现
我们的目标是去学习具有区分力的特征表示去达到两个目的:
1)不同模态的一些信息是共享的
2)一些特定模态的信息是利用为每一个单独的模态
在这里插入图片描述
映射矩阵Vi(i=1,2),分别对应着RGB和Depth
共性特征的约束:
在这里插入图片描述
,||F表示Frobenius norm。

3.算法流程:
在这里插入图片描述
4.实验结果:
在这里插入图片描述

小结:
加入了共性特征约束和不同部分权重系数自主学习。


注:博众家之所长,集群英之荟萃。

猜你喜欢

转载自blog.csdn.net/u013841196/article/details/82939478