クロスモーダル予測に基づくテキスト中心のマルチモーダル感情分析のための共有プライベート フレームワーク (2021)

论文名:《マルチモーダル感情分析のためのクロスモーダル予測によるテキスト中心のシェアードプライベートフレームワーク
》 

関連作業:

      使用される特徴の粒度に応じて、作業は 2 つのカテゴリに分類されます。1 つは文レベルの特徴に基づくマルチモーダルな特徴融合方法です。文レベルの特徴に基づくマルチモーダル特徴融合法の利点は、グローバルな特徴に基づいて予測できることですが、欠点は、異なるモダリティの局所的な特徴間の位置合わせ関係が無視されることです。

      したがって、別のタイプの方法は、単語レベルの特徴に基づくマルチモーダル特徴融合方法です。先頭で強制位置合わせ。強制的な位置合わせは時間も労力もかかります。その後、暗黙的なクロスモーダル特徴アライメント用のクロスモーダル アテンション メカニズムが登場しました。これには、明示的な特徴アライメントに比べて 2 つの利点があります。最初のポイントは、明示的な特徴アライメントを必要とせずにフュージョン ネットワークに特徴アライメントを含めることです2 番目のポイントは、明示的な位置合わせの後、テキスト フィーチャは短期間に少数のフィーチャのみと対話できるため、フィーチャの対話範囲が制限されることです。暗黙的なクロスモーダル特徴相互作用を使用しながら、文全体の特徴と相互作用することが可能ですこの考慮に基づいて、Tsai らは、Transformer アーキテクチャに基づいたマルチモーダル Transformer を実装しました。このモデルは、明示的な機能の調整を必要とせず、きめ細かい機能の相互作用をキャプチャできます。

モチベーション:

       これまでのマルチモーダル融合研究では、3 つのモダリティを同等に扱い、異なるモダリティ間の相互作用を暗黙的にモデル化していました。

私たちは、ターゲット タスクに対するさまざまなモダリティの寄与をより詳細に調査し、さまざまなモーダル特徴間の関係を明示的に分析およびモデリングすることで、モデルがマルチモーダル特徴融合をより効果的に実行できるようになると考えています。

        さらに、我々は 2 つの観察を提案しました. 1 つ目は、テキスト モードがマルチモーダル感情分析において支配的な位置を占めているということです. 以前の実験結果は、テキスト モードを削除すると、モデルの結果が他のモデルの結果と比べて大きな違いを持つことを示していますモードが低下します。2 番目の点は, テキストモーダルと比較して, 他のモーダルは 2 種類の情報を提供するということです. 1 つのタイプの情報は共有セマンティクスです. 共有セマンティクスはテキストモーダルの外部に情報を提供しませんが, 対応するセマンティクスを強化し, モデルを作成することができますより堅牢に。もう 1 つのタイプの情報はプライベート セマンティクスです。これはテキスト以外のセマンティクス情報を提供し、モデルの予測をより正確にすることができます。

これら 2 つの観察に基づいて、クロスモーダル予測に基づくテキスト中心の共有プライベート フレームワークを提案します。このフレームワークでは、クロスモーダル予測タスクを使用して共有特徴とプライベート特徴を区別し、マルチモーダル特徴に対して特徴融合を実行するテキスト中心のマルチモーダル特徴融合メカニズムを設計します。

デザインをどう実現するか

この方法は主に 2 つの部分で構成されます。1 つは共有特徴とプライベート特徴の識別 (アイデア 1)、もう 1 つは共有特徴とプライベート特徴の特徴融合 (アイデア 2) です。

アイデア 1 出典:他の論文を観察すると、テキスト モダリティがマルチモダリティにおいて重要な役割を果たしていると結論付けられます。

アイデア 1:テキスト視覚とテキスト音響の 2 つのクロスモーダル予測モデルをトレーニングして、非テキスト モダリティの共有特徴とプライベート特徴を取得することにより、クロスモーダル予測タスクを設計します。


実装手順:

プライベート機能、共有?

プライベート機能:この機能には、テキスト機能に含まれない情報が含まれます。クロスモーダル予測モデルでは、テキスト特徴では予測が難しい特徴、つまり、予測時に比較的高い損失関数値を持つタイム ステップの特徴を指します。

共有機能: この機能には、テキスト機能に関連する情報が含まれています。予測プロセスにおいて、特定の時間ステップ特徴を正確に予測するには、アテンション メカニズムは、生成される特徴に関連する情報に注意を払う必要があるため、特徴が予測される場合、特定のテキスト特徴の重みは次のようになります。が高く、この機能はこのテキスト機能と共通の機能であると考えられます。

クロスモーダル予測モデル: クロスモーダル予測モデルの入力はテキスト特徴であり、出力は音声/画像特徴です。Seq2Seq を注意して使用し、テキストビジョンおよびテキスト音声モデルをトレーニングします。取得したモデルを使用して共有特徴とプライベート特徴を区別し、結果を共有マスクとプライベートマスクとして記録します。これはセンチメント回帰モデルに渡されます。

共有マスク: 予測モデルが非テキスト特徴を出力したい場合は、より多くの共有セマンティック入力テキスト特徴が含まれているという前提にさらに注意を払う必要があるという前提に基づいて、共有マスクを設計しました。ソートの重みが最も大きい K は 1 で、その他は 0 です。最後に、タイミング スマスクが取得されます。

プライベート マスク:プライベート セマンティクスの表現。プライベート セマンティクスは、テキスト モダリティによって予測するのが困難です。

最大の K を取得するようにソートされたトレーニング予測モデルの損失値 e は 1 で、それ以外の場合は 0 です。pmask (回帰モデルで使用されるプライベート マスク) を取得し、モデルがプライベート機能に重点を置くようにします。

アイデア 2 出典:他の 2 つのモダリティは、セマンティクスを強化し、センチメント分析モデルをより堅牢にすることができます。これは合理的な推測です。

アイデア 2:テキスト特徴と 2 クラス特徴を融合する感情回帰モデルを設計します。

実装手順:

入力層: LSTM、発話レベルのテキスト特徴を取得します。まず、フレームレベルの視覚または聴覚の特徴が抽出され、平均されて最終的な特徴が得られます。これは発話レベルの特徴と呼ばれます。融合後にマルチモーダル表現が得られます。

共有モジュール:非テキストモーダル機能の共有情報を利用して単語の表現を強化します。私たちは、クロスモーダル予測モデルから取得した共有マスクを活用して、テキスト以外の共有機能に焦点を当てることができる、マスクされたクロスモーダル ネットワークを提案します。

注意の計算はテキスト音声とテキスト視覚に対して実行され、単語表現はマスクを使用したドットの乗算によって強化されます。次に、計算された 3 つが注意を払って接合および融合され、最終的に共通の表現が得られます。

プライベート モジュール:モデルが非テキスト モダリティに含まれる固有の情報をキャプチャできるようにします。

計算には活性化関数を使用せず、直接線形計算を行い、スコアを計算する際には合計も加算され、内積は発生しません。

回帰層: ReLU 活性化機能を備えた 2 層のネットワーク実装。

要約:

これら 2 つのセマンティクスを区別するために、クロスモーダル予測タスクを設計し、結果を共有マスクとプライベート マスクとして記録します。さらに、共有モジュールとプライベート モジュールを利用してテキスト特徴と 2 つの非テキスト特徴を融合する回帰モデルを提案します。

情報の 1 つのタイプは共有セマンティクスです。このタイプの情報を使用すると、テキスト内の対応するセマンティクスが強化され、モデルがより堅牢になります。もう 1 つのタイプの情報はプライベート セマンティクスです。これは、モデルの予測をさらに正確にするためにテキスト セマンティクスを補足するために使用されます。

実験結果は、共有非テキスト セマンティクスとプライベートの非テキスト セマンティクスを区別し、テキスト セマンティクスと 2 つの非テキスト セマンティクス間の相互作用を明示的にモデル化することは、各非テキスト特徴を全体的な状態感情分析として扱うよりもマルチモダリティにとって有益であることを示しています。この分析は、回帰モデルがより優れたクロスモーダル予測モデルからより多くの利益を得ることができることを示しています。また、クロスモーダル予測プロセスでは、有用な監視信号を生成するためにラベルなしのデータのみを使用する必要があることも示しています。

おすすめ

転載: blog.csdn.net/qq_41458274/article/details/129492212