读《多峰性感情分析のためのハイブリッド注意を備えたマルチテンソル融合ネットワーク》

2020年

導入

研究者の中には、単純な接続ベースの方法 [11、12、13、14] を使用してマルチモーダルな特徴を融合する人もいますが、これによりモダリティの動的関連情報が失われる可能性があります。接続ベースの方法では、マルチモーダル フィーチャ上の高次元の空間相関が考慮されないためです。したがって、テンソル融合ネットワーク [3] は、モダリティの動的情報を適切に保存できるテンソルの形式でマルチモーダル特徴相関をキャプチャするために提案されています。ただし、単純なテンソル融合ネットワークでは、特徴抽出が不十分で、モダリティ相互作用能力が低いという問題があります。
不十分な特徴抽出に対処するために、図 1 に混合注意を備えたマルチテンソル融合ネットワーク (MTFN-HA) を提案します。この方法では、ビデオ内の話者の各発話を感情セグメントとして取得し、構造的特徴と単語のアライメントをエンコードした後、ハイブリッド アテンションを備えたマルチテンソル フュージョン ネットワークにいくつかのセグメントをフィードします。Bi-LSTM とハイブリッド アテンションの 2 つの方法を使用して、マルチモーダルな特徴を抽出します。階層型マルチテンソル融合法は、テキスト、ビデオ、およびオーディオのモダリティ間のバイモーダルな相互作用情報を融合するために導入されています。6 組のバイモーダル相互作用情報が融合されて、2 つのクロスモーダル テンソルが得られます。最後に、感情の強さの回帰値が得られます。
ここに画像の説明を挿入

関連作業

マルチモーダル感情分析におけるマルチモーダル融合手法は、接続ベースの手法と非接続ベースの割り当て手法に分類できます。接続ベースの方法を通じて、マルチモーダル フィーチャがエンドツーエンドで接続され、融合結果が得られます。MARN [12] は、感情分類に長期と短期のハイブリッド記憶とマルチヘッド アテンション メカニズムを使用します。多峰性マルチヘッド アテンション [13] も感情分類に適用されています。コンテキストを認識した対話型注意 [11] を感情強度予測実験に適用します。Kumar et al. [14] は、感情タスクの二項分類においてより高い精度を達成するために、ゲート アテンション メカニズムを導入しました。ただし、これらの方法はすべて接続の特性を利用するため、動的な関連情報が失われる可能性があります。(就是对齐式的融合呗)
テンソル フュージョンは、典型的な非シリアル特徴フュージョン手法です。Zadeh et al. [3] は、マルチモーダルなダイナミクス情報を柔軟に組み込むテンソル融合ネットワークを提案しました。Tensor Fusion は、さまざまなソース フィーチャから空間関係を迅速にモデル化できます。さらに、リレーショナル テンソル ネットワーク [15] は、複数の Bi-LSTM と、すべての異なるモダリティに対するモダリティ埋め込みからの n 倍デカルト積を使用して、Tensor Fusion を一般化したものです。しかし、これらの方法は、特徴抽出とモダリティ相互作用の点で十分に準備されていません。特徴抽出が不十分だと主要なセンチメント特徴が失われる可能性があり、モード相互作用が不十分だと融合の有効性が低下する可能性があります。したがって、不十分な特徴抽出と不十分なモーダル相互作用に対処するための効率的なマルチモーダル融合手法を提案します。

方法

単峰性コンテキスト(就相当于intra-modal吧)

ビルストム

混合注意

モジュール内のコンテキスト情報とマルチモーダル インタラクション機能を完全に抽出します。ハイブリッド アテンションは、図 2 に示すように、マルチヘッド アテンション メカニズムとクロス アテンション メカニズムで構成されます。複数の線形変換を使用するマルチヘッド アテンション [17] は、異なる部分空間からモジュール内の特徴を学習することです。
ここに画像の説明を挿入
ここに画像の説明を挿入(其实三模态在bilstm后都又经过自注意力,然后再交互注意力了。这里交互注意力是拿自注意力的结果和另一个模态的lstm结果做的)
ここに画像の説明を挿入
したがって、クロスモーダル アテンションの計算により、CVa、CAV、CTV、CVT、CTA、CAT の 6 つの異なるモダリティ間のクロス アテンション値を取得できます。それらをマルチテンソル融合層に置きます。(A32,很直观的排列组合)

マルチテンソル融合

マルチテンソル融合は、モダリティ埋め込みからのデカルト積を使用する複数のテンソル融合層で構成されます。テンソル融合法は次のように定義されます。6(笛卡尔积不就是逻辑上的成对吗,这有啥实际的计算?好吧其实是外积)
ここに画像の説明を挿入
つのクロスアテンション値をランダムに 2 つのグループに分割し、別々にテンソル融合を実行します(那这个随机分组就得有将就吧)最後に、結果として得られる 2 つのテンソルを新しいビュー モジュールとして表示し、再度融合することができます。これらの式は次のように表されます。
ここに画像の説明を挿入
複数のテンソルの融合後、完全に接続されたディープ ニューラル ネットワーク FC が使用され、重み Ws は z で条件付けされます。ネットワークは、予測層に接続された ReLU アクティベーション ユニットの 2 層で構成されます。FC ネットワークの関数は式 (14) のように定義されます。ここで、感情強度の予測結果は I です。

おすすめ

転載: blog.csdn.net/weixin_40459958/article/details/124042279