读《NFCMF: マルチモーダル感情分析のためのノイズ フィルタリングとクロスモーダル フュージョン》

2021年
ここに画像の説明を挿入
(看来是两两交互式的,v和l就像coatten一样交互出对应的两个输出,再对应的和原本的拼接,再统一拼起来。但是这样一方面v和a没有交互啊?另一方面l会有俩?)

ここに画像の説明を挿入
まず、クロスモーダル重み行列GM ∈ R dhl × dhm G^M∈R^{d^l_h×d^m_h} を初期化します。GMRdh× dhメートルM a^M_t で結合ベクトルを計算するにはあるtM、ここでdlh dlhd l hは、言語モダリティの隠れ状態の次元、dhmd^m_hdhメートル視覚または音響モダリティの隠れた状態の次元です。計算結果を式(5)に示します。
ここに画像の説明を挿入
ここに画像の説明を挿入
言語と視覚のモダリティ間のクロスモーダルな相互作用を例として、L → V a^{L→V}_t で取り上げます。あるtL V値が大きいほど、言語モダリティ特徴と視覚モダリティ特徴によって捕捉された感情情報の間の相関が高くなります。同様に、V→Lでは a^{V→L}_tあるtV L値が高いほど、視覚モダリティ特徴によって捕捉された感情情報と言語モダリティ特徴の間の相関が高くなります。そして、最終的な隠れ状態出力 ^hMt は式 (7) によって得られます。
ここに画像の説明を挿入
(感觉对多头注意力公式的理解加深了?softmax就相当于把映射的向量再归一化成加权系数,而一开始的a也是内积出来的,只不过中间加了俩学习参数)
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_40459958/article/details/124041544