1. この論文で解決される問題
- 画像とテキスト間の関連性の強さを不適切に測定する戦略は、誤った融合につながる可能性があります。つまり、互いに関連性のない画像とテキストのペアも融合されてしまう可能性があります。
- 実際の接続がある場合でも、各モダリティの特徴ベクトルを単純に結合するだけでは、単一モダリティ内およびマルチモダリティ間の特徴情報を完全にマイニングすることはできません。
上記の 2 つの問題から出発して、本論文は CMCN モデル (階層融合を伴うクロスモーダル補完ネットワーク) を提案します。モデルの構造は次のとおりです。
モデルは 3 つの部分に分かれています。FEM (Feature Extraction Module、特徴抽出部分)、FAM (Feature tention Module、画像およびテキストの特徴に対するアテンション操作を実装する部分)、CMHF (Cross-Modal Hierarchical Fusion モジュール、階層型融合部分) )。
著者は 、テキスト情報には高度な意味論的特徴があると考えています。センチメント分類の場合、アテンション メカニズムを通じて取得されたテキスト特徴は、より識別力があり、より多くの意味論を持っているため、テキストがメイン モードとして使用され、テキストは感情を知るために使用されます。画像注意力ベクトルの生成。
1.1 ファム
画像とテキストの相関を生成します。このモジュールの入力は、エンコードされたオリジナルのテキスト特徴F t F_tですFたおよび対応するテキスト特徴として転写された画像F ti F_{ti}F私は、コサイン類似度を使用して画像とテキストの関連性を測定し、モジュールは値ccを計算します。c。
ccc は、画像注目ベクトル生成の過程でテキスト注目ベクトルがどの程度関与するかを示します。
1.2CMHF
この層は 4 つの部分で構成され、アップサンプリング部分は 4 つの機能、つまりF t 、 F i 、 F tatt 、 F iatt F_{t}、F_{i}、F_{t_{att}}、F_{i_{att を使用します。 }}Fた、F私は、Ftああ_、F私ああ_同じ次元空間にマッピングされます。
1 つ上のレベルに進み、モード内の融合とモード間の融合という 4 つの融合操作を実行します。ここで、g( ) はドット積による融合を意味します。
1 つ上の層に進むと、大域融合操作が実行され、前の層で取得された 4 つのベクトルが融合されて大域特徴ベクトルが取得されます。
4 つのラベルの内容を取得し、実際の値を使用してクロス エントロピー関数を実行して 4 つの損失を取得し、4 つの損失の結合最適化によってモデルを最適化します。
2. 実験に使用したデータセット
3. 実験結果
4. まとめ
この記事にはいくつか問題点があり、まず、式の観点から言えば、式中の各量の寸法形状がそれがどのくらいであるかを示していないこと、式を導出する過程で完全に混乱していることです。人々はそれを押すと、2 つのテンソルが異なると感じますが、次元がすべて異なるため、計算の方法がありません (論文のモデル図から、論文で得られる中間ベクトルはすべて 1 次元ベクトルです)。
記事の冒頭で、グラフィックとテキストの相関関係の測定戦略が不適切であると、誤った融合が生じる可能性があると書かれていましたが、それを読んで、グラフィックとテキストの間に相関関係がない場合は、それらを許可しないでくださいと思いました間違った融合がないように融合する。しかし、記事の式を読んだ後、これは当てはまらないことがわかりました。データ セット内の画像とテキストのデータのペアは依然として融合されます。