論文の読書: マルチモーダル質問応答のためのマルチモーダル グラフ トランスフォーマー


ペーパーリンク

論文名: Multimodal Graph Transformer for Multimodal Question Answering 論文
リンク

まとめ

視覚や言語のタスクでは成功しているにもかかわらずTransformer模型、多くの場合、大量のデータから暗黙的に知識を学習しており、構造化された入力データを直接活用することができません。一方、结构化学习方法事前情報を統合するグラフ ニューラル ネットワーク (GNN) などの は、Transformer モデルとほとんど競合できません。

この研究では、両方の世界から利益を得て、複数のモダリティにわたって推論を実行する必要がある新しい多模态图转换器質問応答タスクを提案することを目指しています。テキストおよびビジュアルデータから得られるマルチモーダルグラフ情報を効果的な事前分布としてバニラセルフアテンションに組み込む方法を紹介し涉及图形的即插即用类注意机制ます具体的には、テキスト グラフ、密領域グラフ、セマンティック グラフを構築して隣接行列を生成し、それらを入力の視覚的および言語的特徴と組み合わせて下流の推論を実現します

グラフ情報を使用して自己注意を正規化するこの方法は、推論能力を大幅に向上させ、さまざまなモダリティの特徴を調整するのに役立ちます。GQA、VQAv2、および MultiModalQA データセットの Transformer ベースラインに対する Multimodal Graph Transformer の有効性を検証します。
ここに画像の説明を挿入
图1: Multimodal Graph Transformer 的概述。它将视觉特征、文本特征及其相应生成的图形作为输入。首先将生成的图转换为邻接矩阵来导出掩模矩阵g。计算Transformer中修改的准注意分数来推断答案。式中,G是由视觉端和语言端邻接矩阵连接而成的图诱导矩阵。G是可训练偏差。将不同模态的输入特征与图形信息融合,进行下游推理。

1件の投稿

既存の方法の欠点を補うために、この論文では、プラグアンドプレイのグラフベースのマルチモーダル質問応答方法を提案します。私たちのアプローチは、Multimodal Graph Transformerいくつかの重要な基本的な違いにもかかわらず、確立された Transformer (Vaswani et al., 2017a) のバックボーンに基づいて構築されているためです。
まず、視覚および言語タスクからのテキスト グラフ、密領域グラフ、および意味論的グラフを、手法で使用する隣接行列に変換する体系的なスキームを導入します。
第二に、注意スコアを直接計算する代わりに、グラフ誘導隣接行列をコアとして新しく提案された準注意スコアを学習し、準注意スコアを計算するための効率的な帰納的バイアスとして相対重要度を学習することの重要性を示します。
第三に、完全にデータから自己注意を学習する以前の Transformer メソッドとは異なり、Transformer トレーニングをガイドするために自己注意の計算にグラフ構造情報を導入します如图1所示

主な貢献は次のように要約されます。

• 非構造化データからのマルチモーダル グラフ学習と Transformer モデルを組み合わせた、新しいマルチモーダル グラフ Transformer 学習フレームワークを提案します。

• トレーニング中の情報の流れをガイドするトレーニング可能なバイアス項を備えたモジュール式のプラグアンドプレイのグラフのような注意メカニズムを導入します。

• 提案手法の有効性は、GQA、VQA-v2、および MultiModalQA タスクで経験的に検証されています。

3 マルチモーダルグラフトランスフォーマー

3.1 変圧器の背景

Transformer 層 (Vaswani et al.、2017b) は、マルチヘッド アテンションとフィードフォワード ネットワーク (FFN) の 2 つのモジュールで構成されます。

具体的には、各ヘッダーは 4 つの主要な行列で表されます。
ここに画像の説明を挿入

アテンションの出力は次のとおりです。
ここに画像の説明を挿入

3.2 フレームワークの概要 フレームワークの概要

提案されたマルチモーダル グラフ トランスフォーマー手法の全体フレームワーク如图2所示一般性を失わずに、以下で説明する最終的なタスクは VQA であると仮定しますが、私たちのフレームワークはマルチモーダル質問応答などの他の視覚言語タスクにも適用できることに注意してください。

ここに画像の説明を挿入
图2:该图说明了我们的Multimodal Graph Transformer的整体框架。来自不同模态的输入被处理并转换成相应的图形,然后转换成掩模并结合其特征馈送到变压器进行下游推理。其中,通过场景图生成方法生成语义图,提取密集区域图作为密连图,通过解析生成文本图。

入力画像と質問が与えられると、フレームワークはまず、セマンティック グラフ、密領域グラフ、およびテキスト グラフを含む 3 つのグラフを構築します。これらのグラフについては、次のセクションで詳しく説明しますグラフG = (V, E)。ここで、V はグラフ内のノードのセットを表しE はノードを接続するエッジを表します。グラフ G = (V, E) は、トレーニング プロセスをガイドするためにトランスフォーマーに供給されます。

3.3 多峰性グラフの構築 多峰性グラフの構築

3 種類のグラフを作成し、それらをトランスフォーマーに入力します: 文本图text graph、 、语义图semantic graphおよび密集区域图anddense region graph

テキストグラフ

視覚的な質問応答のタスクには、画像、質問、および対応する回答の組み合わせが含まれます。これを処理するには、エンティティを抽出し、テキストのグラフ表現を作成します。g =(V,E)次に、図 2 の左側に示すグラフを作成しました。ノード集合 V はエンティティを表し、エッジ集合 E はエンティティのペア間の関係を表します。その結果、次のような結果が得られます。

  • ラベル付きベクトル埋め込みによってそれぞれ表される N 個のエンティティの集合が、グラフのノードを構成します。
  • テキスト グラフのエッジを形成するエンティティ間の一連のペア関係。エンティティ i と j の間の関係は、相対関係をエンコードするベクトル e_ij によって表されます。
    ここに画像の説明を挿入
    图3:将语义图转换为邻接矩阵的简单演示。蓝色的单元格表示图矩阵中该元素的“0”,而白色的单元格表示“-inf”。在计算准注意力时,我们采用矩阵作为掩模。

セマンティックグラフ

マルチモーダルな質問応答などのタスクでは、追加の入力がまたは長い段落文の形式で追加される場合があります。これらの入力を処理するには、テーブルの線形表現を作成し、同様のアプローチを使用してセマンティック グラフを構築します。これらは、図 3 に示すように、テキスト文をエンティティと関係のグラフに変換するシーン グラフ パーサー(Zhong et al., 2021) を使用して処理されます。シーン グラフ パーサーの出力には次が含まれます。

  • セマンティック グラフ ノードを構成する N 個の単語のコレクション。N はテキスト内の解析された単語の数です。
  • 図 3 に示すように、「left」と「on」など、一連の単語間の可能なペア関係がグラフの端を形成します。j と i を接続する単語間のエッジは eij で示されます。つまり、結合性は次のように表されます。ここに画像の説明を挿入

密集領域グラフ

視覚的特徴は、入力画像を小さな部分に切り刻んで平坦化することによって抽出されます。次に、それは密集区域图dense region graph G = (V, E)マスクに変換されます。ここで、V は抽出された視覚的特徴セットE は各特徴ノードを接続するエッジ セットです。この方法は (Kim et al., 2021) に説明されています。これにより、ほぼ完全に接続されたグラフが得られます。


結果として得られる 3 つのグラフは、要素が-∞または0ある隣接行列に変換されます図 3 は、セマンティック グラフを例にして変換プロセスを説明します。これらの隣接行列は、値をマスキング ( -∞に設定) することで情報フローを制御するために使用されます
内标点积注意

グラフに関係する準注意力

構造化されたグラフの知識をセルフ アテンションの計算で効果的に利用するために、グラフを隣接行列に変換することで、各アテンション ヘッドの追加の制約としてグラフを組み込みます。グラフ行列は G で示され、複数のマスクで構成されます。図 4 はこのプロセスを示しています。ビジュアル マスクは密領域マップから生成され、テキスト マスクはテキスト マップから派生します。さらに、クロスモーダル マスクはオールゼロ行列として設定され、モデルが視覚的特徴とテキスト的特徴の間の相互注意を学習することを促進し、それによって異なるモダリティ間での調整が容易になります。

グラフ情報を追加する場合、ビジュアル グラフ マスクとテキスト グラフ マスクが連結され、画像とテキストの特徴と位置合わせされる場合、ソフトマックス操作でマスク メカニズムを維持するのではなく、より柔軟なマスキング メカニズムを持つ方が有益であると考えられます。定数マスク行列。類似性を計算する際に各頭部の相対的な位置バイアスを含めた Liu et al. (2021) からの洞察を利用して、トレーニング可能なバイアス G- を直感的にパラメーター化し、トレーニング プロセスに組み込みます。最後に、次のように準注意を計算します。


要約する

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_44845357/article/details/130577459