MIA-Net: マルチモーダル感情分析のためのマルチモーダル インタラクティブ アテンション ネットワーク
概要:マルチモーダル融合では、まず複数のモダリティを主モダリティと補助モダリティに分け、インタラクティブなアテンションモジュールを構築することで、主モダリティに役立つ情報を補助モダリティから抽出して融合します。
(特徴レベル注目度融合手法に属します)
記事情報
著者: Shuzhen Li、Tong Zhang
所属:華南理工大学
ジャーナル: アフェクティブ コンピューティングに関する IEEE トランザクション
注目項目:MIA-Net: マルチモーダル感情分析のためのマルチモーダル対話型注意ネットワーク
年: 2023
研究目的
限られた計算とパラメーター条件の下で、二峰性モデルを三峰性または多峰性タスクに一般化する方法を検討しますか? そして、感情分析に対するさまざまなモダリティのさまざまな寄与をどのように解決するのでしょうか?
研究内容
主モダリティと補助モダリティを融合し、センチメント分析に使用するために、3 つのモダリティまたはマルチモダリティをサポートする融合モデル MIA-Net (Multi-modal Interactive Attendant Network) が提案されています。
研究手法
このフレームワークは、シングルモーダル特徴抽出器 (Feature Extractor)、N-1 MIA モジュール、リグレッサー、および分類器で構成されています。
特徴抽出器
テキスト データの場合: まず、GPT-2 (トークナイザー) を使用して、各テキストの説明を一連の記号としてマークします。次に、RoEBRTa モデルを使用してテキストの特徴を抽出します。
オーディオ データの場合: 最初に VQ-Wav2Vec モデルを使用してオーディオの可変長オーディオ表現を離散オーディオ表現に変換し、次に RoBERTa モデルを使用して離散音響表現から音響特徴を抽出します。
ビデオ データの場合: まず、RetinaFace モデルを使用して、各ビデオ フレーム内の顔領域を検出してセグメント化します。次に、キーフレームの数に基づいて各ビデオからビデオ フレームが抽出されます。最後に、Fabnet モデルを使用して、抽出されたビデオ フレームから視覚的特徴を抽出します。
テキスト特徴次元: 1024、音響特徴次元: 768、視覚特徴次元: 256
MIAモジュール
記号表現:
M jn M_{j}^{n}MjんM n M^nを意味しますMnのjjjメイン モード固有ベクトル、\mathbf{A}_i^n の Aあ私んA n A^nを意味しますあn的第 i i i補助モーダル特徴ベクトル。
K ( A in , M jn ) \mathcal{K}(\boldsymbol{A}_i^n,\boldsymbol{M}_j^n)K ( A私ん、Mjん) SM n A n S_{\boldsymbol{M}^n\boldsymbol{A}^n} の計算に使用される一般的な線形カーネルを表します。SMあ_ん(親和性行列を表します)。
P ( SM n A n ) \boldsymbol{P}(\boldsymbol{S}_{\boldsymbol{M}^n\boldsymbol{A}^n})P ( SMあ_ん) は、メインのモーダル表現を改善するために使用される、インタラクティブな注意の重みを表します。
P ji ( SM n A n ) \boldsymbol{P}_{ji}(\boldsymbol{S}_{\boldsymbol{M}^n\boldsymbol{A}^n})Pじ( SMあ_ん)は、j 番目のメイン モード固有ベクトルに対する i 番目の補助モード固有ベクトルの重要性を表します。
M ^ m ← アン \hat{\boldsymbol{M}}_{m\gets a^n}^nM^m ← anん補助モードによって強化された、更新されたプライマリ モード機能を表します。
各 MIA モジュールは、抽出、変換、融合の 3 つのサブモジュールで構成されます。MIA モジュールの機能は、補助モードから重要な機能を選択して、メイン モードの機能を改善することです。
抽出
まず、一般的な線形カーネルを使用してモーダル特徴間の類似性を取得し、次に類似性行列SM n A n S_{\boldsymbol{M}^n\boldsymbol{A}^n} を取得します。SMあ_ん。
k ( x , y ) = x TW y \begin{aligned}k(x,y)=x^{T}Wy\end{aligned}k ( x ,y )=バツワイ__
この式を満たすには、W は正の半定値行列でなければなりません。これは実際には実対称行列です。
すべての実対称行列は直交行列に分解できます。(定理によると、Q = PT Λ PQ=\boldsymbol{P^\mathrm{T}}\boldsymbol{\Lambda P}Q=PT ΛP) したがって、一般的な線形カーネルの最終的な計算式は次のようになります。
K ( A in , M jn ) = ( A in ) TW n M jn = ( A in ) T ( P n ) T Λ P n M jn = ( P n A in ) T Λ ( P n M jn ) . \begin{aligned} \mathcal{K}(\boldsymbol{A}_i^n,\boldsymbol{M}_j^n)& =\left(\ボールドシンボル{A}_i^n\right)^\mathrm{T}\boldsymbol{W}^n\boldsymbol{M}_j^n \\ &=\left(\boldsymbol{A}_i^n\right)^ {\ mathrm{T}}(\boldsymbol{P}^n)^{\mathrm{T}}\boldsymbol{\Lambda}\boldsymbol{P}^n\boldsymbol{M}_j^n \\ &=\左( \boldsymbol{P}^n\boldsymbol{A}_i^n\right)^\mathrm{T}\boldsymbol{\Lambda}(\boldsymbol{P}^n\boldsymbol{M}_j^n)。 \end {整列}K ( A私ん、Mjん)=( A私ん)TWnM _jん=( A私ん)T( Pn )TΛP __nM _jん=( Pあ_私ん)TL ( PnM _jん)。
親和性行列 (2 つのモダリティ間の類似性) を取得した後、親和性行列は対話型注意重みP ( SM n A n ) \boldsymbol{P}(\boldsymbol{S }_{\boldsymbol{M) にエンコードされます。 }^n\boldsymbol{A}^n})P ( SMあ_ん)、P ( SM n A n ) \boldsymbol{P}(\boldsymbol{S}_{\boldsymbol{M}^n\boldsymbol{A}^n}) をP ( SMあ_ん)メインモードの特性を改善します。
P ( SM n A n ) = [ P 1 ( SM n A n ) , ⋯ , P j ( SM n A n ) , ⋯ , P dm ( SM n A n ) ] P(S_{\boldsymbol{M}^ n\boldsymbol{A}^n})=\left[P_1(S_{\boldsymbol{M}^n\boldsymbol{A}^n}),\cdots,P_j(\boldsymbol{S}_{\boldsymbol{ M}^n\boldsymbol{A}^n}),\cdots,P_{dm}(\boldsymbol{S}_{\boldsymbol{M}^n\boldsymbol{A}^n})\right]P ( SMあ_ん)=[ P1( SMあ_ん)、⋯、Pj( SMあ_ん)、⋯、Pdm _( SMあ_ん) ]
P j (SM n A n ) = [P j 1 (SM n A n ) ⋮ P ji (SM n A n ) ⋮ P jdun (SM n A n A n ) ] = [exp (K (A 1 n , M jn ) ) ∑ kdanexp ( K ( A kn , M jn ) ) ⋮ exp ( K ( A in , M jn ) ) ∑ kdanexp ( K ( A kn , M jn ) ) ⋮ exp ( K ( A dann , M jn ) ) ) ∑ kdanexp ( K ( A in , M jn ) ) ] P_j(S_{\boldsymbol{M}^n\boldsymbol{A}^n})=\begin{bmatrix}P_{j1}(S_{\boldsymbol {M}^n\boldsymbol{A}^n})\\\vdots\\P_{ji}(S_{\boldsymbol{M}^n\boldsymbol{A}^n})\\\vdots\\P_ {jd_{u^n}}(S_{\boldsymbol{M}^n\boldsymbol{A}^n\boldsymbol{A}^n})\end{bmatrix}=\begin{bmatrix}\frac{exp( \mathcal{K}(\boldsymbol{A}_1^n,\boldsymbol{M}_j^n))}{\sum_k^{d_a\boldsymbol{n}}exp(\mathcal{K}(\boldsymbol{A }_k^n,\boldsymbol{M}_j^n))}\\\vdots\\\frac{exp(\mathcal{K}(\boldsymbol{A}_i^n,\boldsymbol{M}_j^n ))}{\sum_k^{d_an}exp(\mathcal{K}(\boldsymbol{A}_k^n,\boldsymbol{M}_j^n))}\\\vdots\\\frac{exp(\ mathcal{K}(\boldsymbol{A}_{d_a^n}^n,\boldsymbol{M}_j^n))}{\sum_k^{d_an}exp(\mathcal{K}(\boldsymbol{A} _i^n,\boldsymbol{M}_j^n))}\end{bmatrix}Pj( SMあ_ん)= Pj1 _( SMあ_ん)⋮Pじ( SMあ_ん)⋮Pjd _あなたん( SMあ_あ_ん) = ∑kdあんe x p ( K ( Akん、Mjん))e x p ( K ( A1ん、Mjん) )⋮∑kdあんe x p ( K ( Akん、Mjん))e x p ( K ( A私ん、Mjん) )⋮∑kdあんe x p ( K ( A私ん、Mjん))e x p ( K ( Adあるんん、Mjん) )
変身
メイン モードと補助モードの間のインタラクティブ アテンション ウェイトP ( SM n A n ) は、抽出によって取得されます。 \boldsymbol{P}(\boldsymbol{S}_{\boldsymbol{M}^n\boldsymbol{A} ^ n})P ( SMあ_ん) )、その後、Transform モジュールで、インタラクティブ アテンション ウェイトと補助モーダル特徴が行列乗算されて、新しい主モーダル特徴が得られますM ^ m ← ann \hat{\boldsymbol{M}}_{m\gets a ^n }^nM^m ← anん
次に、この新しいメイン モード特徴はセルフゲート メカニズム GA (より多くの識別特徴を抽出し、考えられるノイズ特徴を抑制する) を通じて改善され、改善されたメイン モード特徴M ゲート dn M_{gated}^n が得られます。Mゲートされた_んM Gatedn = M ^ m ← ann ⋅ GG = σ ( K 1 ⊙ M ^ m ← ann + b 1 ) M_{gated}^n=\hat{M}_{m\leftarrow a^n}^n \
cdot\boldsymbol{G}\\ \boldsymbol{G}=\sigma(\boldsymbol{K}_1\odot\hat{\boldsymbol{M}}_{m\gets a^n}^n+\boldsymbol{b} _1)Mゲートされた_ん=M^m ← anん⋅GG=s ( K1⊙M^m ← anん+b1)
⊙ \odot⊙ は畳み込みを表し、σ \sigmaσ はロジスティック シグモイド活性化関数を表し、G はゲート係数を表します。K1K_1K1そしてb 1 b_1b1それぞれ畳み込みカーネルとバイアスを表します。
融合
最後に、改良されたメイン モード機能M Gatedn M_{gated}^nMゲートされた_ん、初期メインモード特性M n M^nMn融合する。最終的に融合されたモーダル フィーチャを取得します。
M n + 1 = f N ( σ ( K 2 ⊙ [ M Gatedn : M n ] + b 2 ) ) \boldsymbol{M}^{n+1}=f_N(\sigma(\boldsymbol{K}_2\odot) [\boldsymbol{M}_{ゲート付き}^n:\boldsymbol{M}^n]+\boldsymbol{b}_2))Mn + 1=fN( p ( K2⊙[ Mゲートされた_ん:Mn ]+b2))
f N ( ⋅ ) f_{N}(\cdot)fN( ⋅ )はバッチ正規化関数[ : ] \left[:\right][ : ] は接続動作を示します
複数の MIA モジュールを積み重ねることにより、N 個の補助モードによって強化されたメイン モードの機能が最終的に得られます。次に、残りの 2 つの接続を通じて、 MIA-Net が取得された後の最終的なメイン モード機能M ˇ \check{\boldsymbol{M}} が得られます。Mˇ .
残りの接続
最初の残りの接続:
M res = M 1 + MMIA s = M 1 + f MIA s ( M 1 , A 1 , ⋯ , AN ) \begin{aligned} \boldsymbol{M}_{res}& =\ bulledsymbol{ M}^{1}+\boldsymbol{M}_{MIAs} \\ &=\boldsymbol{M}^1+\boldsymbol{f}_{MIAs}(\boldsymbol{M}^1,\boldsymbol {A }^1,\cdots,\boldsymbol{A}^N) \end{整列}M解像度=M1+Mミアス_ _ _=M1+fミアス_ _ _( M1、あ1、⋯、あN )
MMIAS M_{MIAS}MM.I.A.S_ _ _ _複数の MIA モジュールによって改善されたM 1 M^1を表しますM1メインモードの特性。
M レス M_{レス}M解像度残留メインモード特性を表します。
2 番目の残りの接続:
M ˇ = M res + f FFN ( M res ) \check{M}=M_{res}+f_{FFN}(\boldsymbol{M}_{res})Mˇ=M解像度+fFFN( M解像度)
残りの接続後のメインモード機能 M ˇ \check{M}Mˇ最終的な感情認識または感情分類のために、それをリグレッサーまたは分類子に送信します。
回帰
回帰モデルは、全結合層と結合損失で構成されます。
L =
( 1 − γ ) LMAE + γ LKRLLMAE = − 1 N ∑ n = 1 N ∣ y ( n ) − z ( n ) ∣ z = θ TM ˇ + b 3 \mathcal{L}=( 1- \gamma)\mathcal{L}_{MAE}+\gamma\mathcal{L}_{KRL}\\\begin{集まった}\mathcal{L}_{MAE}=-\frac1N\sum_{n =1 }^N|y^{(n)}-z^{(n)}|\\z=\ballsymbol{\theta}^\mathrm{T}\check{M}+\ballsymbol{b}_3 \end {集まった}L=( 1−c ) Lマエ_ _+γL _KRL _ _Lマエ_ _=−N1n = 1∑N∣ y( n )−z( n ) ∣z=私TMˇ+b3
LMAE \mathcal{L}_{MAE}Lマエ_ _平均絶対誤差損失を表します。LKRL \mathcal{L}_{KRL}LKRL _ _カーネル正則化損失を表します ( LKRL \mathcal{L}_{KRL}LKRL _ _目的は、親和性行列SM n A n S_{\boldsymbol{M}^n\boldsymbol{A}^n} を見つけることです。SMあ_んWWが保証されるときWは正の半定値行列です)
分類
分類モデルは、全結合層、ソフトマックス関数、および結合損失で構成されます。
L = ( 1 − γ ) LCE + γ LKRLLCE = − 1 N ∑ n = 1 N ynlog ( P ( y ^ n ) ) P ( y ^ ) = Softmax ( θ ™ ˇ + b 3 ) を決定します。
\begin{集まった}\mathcal{L}=(1-\gamma)\mathcal{L}_{CE}+\gamma\mathcal{L}_{KRL}\\begin{aligned}\mathcal{L} _ {CE}=-\frac{1}{N}\sum_{n=1}^New_nlog(P(\hat{y}_n))\end{aligned} \\ \begin{aligned}P(\hat { y})=softmax(\ballsymbol{\theta^\mathrm{T}}\check{\ballsymbol{M}}+\ballsymbol{b_3}).\end{整列}\end{集合}L=( 1−c ) LCE+γL _KRL _ _LCE=−N1n = 1∑Nyんl o g ( P (y^ん) )P (y^)=so f t max ( θ _TMˇ+b3)。
LCE \mathcal{L}_{CE}LCE標準クロスエントロピー損失を表します。
結論と議論
- CMU-MOSI および CMU-MOSEI データセット上で MIA-Net モデルといくつかの SOTA モデルの間で比較実験が行われ、MIA-NET が最良の結果を達成しました。
- MIA-Net は、3 つ以上のモダリティからのデータを処理する場合に効果的です。(アブレーション研究)
- MIA-Net は、新しいデータ セット、タスク、モダリティに一般化できます。(一般研究)
- マルチモーダル対話型注意モジュールは、補助融合を効果的に達成できます。(提案されたモーダルの検証)
- ハイパーパラメータの勉強。
- 共同損失は有効です。(損失関数の研究)
- さまざまな融合方法との比較。(この研究の実用性を証明してください)
コードとデータセット
コードは公開されていません
データセット: CMU-MOSI(1.5G)、CMU-MOSEI(25G)、MELD(10G)
GPU構成: 記載なし