2020

引言

一些研究人员使用简单的基于连接的方法[11,12,13,14]来融合多模态特征，这可能会导致模态动态相关信息的丢失。因为基于连接的方法不关心多模态特征上的高维空间相关性。因此，提出了张量融合网络[3]以张量的形式捕获多模态特征相关，可以很好地存储模态动态信息。然而，简单张量融合网络的特征提取不足，模态交互能力较差。
为了解决特征提取不足的问题，我们在图1中提出了一个具有混合注意的多张量融合网络(MTFN-HA)。该方法将视频中说话者的每句话作为一个情感片段，在对结构特征和词对齐进行编码后，将部分片段输入到具有混合注意的多张量融合网络中。采用Bi-LSTM和混合注意两种方法提取多模态特征。引入了一种分层的多张量融合方法来融合文本、视频和音频模式之间的双峰交互信息。融合六对双峰相互作用信息，得到两个交叉模态张量。最后，得到了情绪强度的回归值。

方法

单模态上下文`（就相当于intra-modal吧）`

bilstm

混合注意力

充分提取模块内上下文信息和多模态交互特征。混合注意由多头注意机制和交叉注意机制组成，如图2所示。使用多重线性变换的多头注意力[17]是从不同的子空间学习模块内特征。

(其实三模态在bilstm后都又经过自注意力，然后再交互注意力了。这里交互注意力是拿自注意力的结果和另一个模态的lstm结果做的)

因此，通过跨模态注意计算，我们可以得到6个不同模式之间的交叉注意值：CVa、CAV、CTV、CVT、CTA、CAT。我们把它们放入多张量融合层。（A32，很直观的排列组合）

多张量融合

多张量融合由多个张量融合层组成，它使用了来自模态嵌入的笛卡尔积。一种张量融合方法的定义如下：（笛卡尔积不就是逻辑上的成对吗，这有啥实际的计算？好吧其实是外积）

我们将6个交叉注意值随机分为两组，并分别进行张量融合（那这个随机分组就得有将就吧）。最后，所得到的两个张量可以看作是新的视图模，并再次融合。这些公式表示如下。

在多张量融合后，使用全连接的深度神经网络FC，权值Ws以z为条件。该网络包括两层连接到预测层的ReLU激活单元。FC网络的函数被定义为方程（14），其中情绪强度预测结果为I。

读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》

引言

相关工作

方法

单模态上下文`（就相当于intra-modal吧）`

混合注意力

多张量融合

猜你喜欢

读《MULTI-TENSOR FUSION NETWORK WITH HYBRID ATTENTION FOR MULTIMODAL SENTIMENT ANALYSIS》

引言

相关工作

方法

单模态上下文（就相当于intra-modal吧）

混合注意力

多张量融合

猜你喜欢

单模态上下文`（就相当于intra-modal吧）`