Cross-Modal Complementary Network with Hierarchical Fusion for Multimodal Sentiment Classification

1.本文所解决的问题

不恰当地衡量图像和文本之间关联强弱的策略可能会导致错误的融合，即可能会使得彼此之间没有联系的图像文本对也进行了特征融合；
即使有真正的联系，简单的拼接各个模态的特征向量并不能够充分地挖掘单模态内部和多模态之间的特征信息；

从上述两个问题出发，本文提出了CMCN模型（ Cross-Modal Complementary Network with hierarchical fusion）。模型结构如下：
在这里插入图片描述

模型分为三个部分，FEM（Feature Extraction Module，特征提取部分），FAM（Feature Attention Module，在图像和文本特征上实施注意力操作的部分），CMHF（Cross-Modal Hierarchical Fusion module，分层融合部分）。

作者认为，文本信息拥有高级的语义特征，对于情感分类来说，通过注意力机制获得的文本特征更具鉴别力，拥有更多的语义，所以将文本作为主模态，使用文本知道图像注意力向量的生成。

1.1 FAM

Generate image-text correlation，该模块输入为编码的原始文本特征 $F_t$ 和图像转述为对应的文本的特征 $F_{ti}$ ，使用余弦相似度来衡量图像和文本的关联性，该模块会计算出一个数值 $c$ 。
在这里插入图片描述

$c$ 表示在图像注意力向量生成的过程中，文本注意力向量起了多少作用。

1.2 CMHF

该层四部分组成，Upsampling部分将4种特征，即 $F_{t}, F_{i},F_{t_{att}},F_{i_{att}}$ 映射到同一维度空间中；

在这里插入图片描述

往上一层，执行4个融合操作，模态内部的融合和模态之间的融合，其中g(·)表示使用点积的方式进行融合；
在这里插入图片描述

再往上一层，执行全局融合操作，将上一层得到的4个向量进行融合操作，得到全局的特征向量。
在这里插入图片描述

得到四个标签的内容，和真实值做交叉熵函数，得到四个损失，采用四个损失联合优化的方式优化模型。
在这里插入图片描述

2.实验所用数据集
在这里插入图片描述

3.实验结果

在这里插入图片描述

4.总结

该篇文章感觉有些问题，首先公式方面，公式中每个量的维度形状没有说明是多少，搞的在公式推导过程中，完全是蒙的状态，有些在推的时候，感觉两个张量的维度都不相同，没有办法进行计算（从文章的模型图来看，文中所得到的中间向量都是一维向量）。

文章最开始说不恰当的图文关联衡量策略可能会导致错误的融合，我读了之后的想法是若图和文之间没有关联，那么就不让他们进行融合，这样就不会进行错误的融合了。但读了文章的公式发现并不是这样的，数据集中的任何一个图文数据对还是会进行融合的。

Cross-Modal Complementary Network with Hierarchical Fusion for Multimodal Sentiment Classification

猜你喜欢