读《ターゲットを絞った視覚的ガイダンスによる固有表現認識のためのマルチモーダルグラフ融合》

2021年

まとめ

支配的なマルチモーダル固有表現認識 (MNER) モデルは、マルチモーダル表現学習を改良する可能性がある、異なるモーダル意味単位間のきめ細かい意味対応を最大限に活用していません。

導入

視覚情報をいかに活用するかは、モデルのパフォーマンスに直接影響する MNER の中核課題の 1 つです。
試してみましょう:
(1) 画像全体をグローバル特徴ベクトル (図 1(a)) にエンコードします。これを使用して、各単語の表現を強化したり (Moon、Neves、Carvalho 2018)、または単語をガイドして視覚的な知覚表現を学習したりできます。 (Lu 2018; Zhang et al. 2018)、(就是节点级分类那种实现方式,比如一张人脸图像整体得到一个嵌入)
(2) 画像全体を複数の領域に均等に分割し(図 1(b))、変換フレームワークに基づいてテキスト シーケンスと相互作用します (Yu et al. 2020)。(就是图级实现的一种方式,类似超像素图块,ZSL还有ViT说的那个patch那种处理)
ここに画像の説明を挿入
これらは、入力された文と画像のペアの意味単位間のきめ細かい意味論的対応を十分に利用していない。たとえば、
a マップは暗黙的なグローバル情報であり
、b マップは複数の平均的にセグメント化された領域を含むローカル情報であるが、それでも暗黙。

これら 2 種類の情報は、「ゲート」の手がかりをテキスト表現に異なる方法で伝播します。この重要なスレッドの開発が失敗したのは、2 つの大きな課題が原因である可能性があります: 1) 2 つの異なるモダリティ間の意味論的なギャップを埋めるための統一表現を構築する方法、2) 統一表現に基づいて意味論的な相互作用を実現する方法。

したがって、cを使用してください(这种目标检测就有点任务特定了,是图像中明确可以boundingbox的那种)

方法

構成

ノード

テキストまたは単語をノードとして、
ビジョンが境界ボックスになります

偶数側

内部ノードは完全に接続されており、内部ノードは同じものに対応して接続されています

融合

イントラセルフアテンション、インターゲーティング(和a novel那篇一毛一样)

おすすめ

転載: blog.csdn.net/weixin_40459958/article/details/123567686