AAAI2023 | BridgeTower: 視覚言語表現学習におけるエンコーダー間ブリッジの構築

论文名:BridgeTower: 視覚言語表現学習におけるエンコーダ間のブリッジの構築

論文の著者: Xu Xiao、Che Wanxiang* など

原作者:徐暁

論文リンク: https://arxiv.org/abs/2206.08657

出典:ハルビン工科大学SCIR

NLP グループに入ります —> NLP 交換グループに参加します

0. お持ち帰りメッセージ

  • シンプルで効果的なビジュアル言語モデル アーキテクチャ、BridgeTowerが提案されています。これは、最上位のユニモーダル レイヤーと各クロスモーダル レイヤーの間にブリッジを構築することにより、異なるセマンティック レベルで視覚的表現とテキスト表現をうまく導入し、それによってクロスモーダルな注意の多様性、さまざまなタスクで優れたパフォーマンスの向上を実現します。

  • 公正な評価設定の下で、BridgeTower は、Two-Tower アーキテクチャの METER モデルと比較して、モデルのマルチモーダル表現能力を大幅に向上させます。

  • BridgeTower は、視覚言語の事前トレーニングに 400 万枚の画像のみを使用して、さまざまな視覚言語のダウンストリーム タスクで非常に強力なパフォーマンスを達成し、より多くのデータとパラメーターで事前トレーニングされた多くの強力なモデルを打ち負かしました。

  • BridgeTower は、さまざまなビジュアル、テキスト、またはクロスモーダル エンコーダーに適合させることができます。

1. 背景と動機

8a895aa362b6dd23598da8679e43d192.png

視覚言語タスクの例

画像ソース:12-in-1: マルチタスク ビジョンと言語表現の学習

視覚言語研究の目標は、画像とテキストを理解できるインテリジェントな AI システムをトレーニングすることです。上の図は、いくつかの一般的な視覚言語タスクを示しています。最もよく知られているタスクの 1 つは視覚的質問応答です。これは、入力画像に基づいて画像に関する質問に答える必要があります。

さまざまな視覚言語モデル

2019 年以来、大規模な画像とテキストのペアの自己教師あり事前トレーニングの助けを借りて、Transformer ベースの視覚言語モデルは目覚ましい進歩を遂げました。その中でも、2 塔構造の視覚言語 (VL) モデルが視覚言語表現学習を支配しています。さまざまなモデル アーキテクチャと事前トレーニングの目的が、さまざまなテキストおよびビジュアル エンコーダーに基づいて提案されています。モデル アーキテクチャの観点からは、最新の VL の作業は、テキスト エンコーダー、ビジュアル エンコーダー、およびそれらの上にあるクロスモーダル フュージョン モジュールの 3 つのモジュールで構成されるツイン タワー アーキテクチャーと見なすことができます。異なる VL モデルは、これら 3 つのモジュールの設計が異なります。

cee965deebeaefc7f5f8cf86d01ebf0f.jpeg

視覚言語モデル アーキテクチャの簡単な説明

図 (a) ~ (d) は、現在の 4 種類の視覚言語モデルです。図 (e) は、BridgeTower のモデル構造を簡単に示しています。VE、TE、および CE は、それぞれビジュアル エンコーダー、テキスト エンコーダー、およびクロスモーダル エンコーダーの略です。各長方形の高さは、相対的な計算コストを表します。この図は、ViLT: 畳み込みまたは領域監視のない視覚と言語のトランスフォーマーに触発されています。

現在の VL モデルは、軽量のユニモーダル エンコーダーを使用し、ディープ クロスモーダル エンコーダーで両方のモダリティを同時に抽出、調整、融合することを学習するか、事前トレーニング済みのディープ ユニモーダル エンコーダーを最終モデルと組み合わせます。ユニモーダル表現のレイヤーがトップクロスモーダルエンコーダー。どちらのアプローチも、視覚言語表現の学習を制限し、モデルのパフォーマンスをさらに制限する可能性があります。

aac1d1e99b9bf3e676b410c2072b381b.png

モチベーション

METERモデルなど、二重タワー構造のモノモーダルタワー(エンコーダー)に入ると。深い単峰タワーの異なる層のセマンティック情報を無視して、最後の層の単峰機能のみを最上位のクロスモーダル融合モジュールに直接供給することがわかります。マルチレイヤーのユニモーダル機能を完全に活用するために、事前にトレーニングされたユニモーダル タワーと異なるレイヤーのクロスモーダル フュージョン モジュールの間にブリッジを構築できるのではないかと自然に考えました。

01112711ae5c688349e2a55d44d1b287.gif

アーキテクチャの比較

そこで、BridgeTower アーキテクチャを提案します。2 タワー アーキテクチャとは異なり、BridgeTower は、クロスモーダル フュージョン モジュールとシングルモーダル エンコーダーの間に複数のブリッジを構築します。2 つの主な違いは、ツイン タワー構造は最後のレイヤーの機能のみを融合するのに対し、BridgeTower は単一のモダリティ エンコーダーの上に複数のレイヤーの機能を徐々に融合することです。

2. モデル アーキテクチャ

df7ba1975039a04b27374885e32b5adc.jpeg

モデル アーキテクチャ

ここでは、BridgeTower の詳細なアーキテクチャ図を示します。具体的には、12 層の RoBERTa ベースと 12 層の CLIP-ViT-B をユニモーダル エンコーダーとして使用します。クロスモーダル エンコーダーは 6 層であり、シングルモーダル エンコーダーの上位 6 層との接続を確立するために、BridgeLayer が各層に追加されます。

これにより、事前トレーニングされたユニモーダル エンコーダーのさまざまなセマンティック レベルの視覚的表現とテキスト表現を、BridgeLayer を介してクロスモーダル表現と融合できるため、クロスモーダル エンコーダーで効率的なボトムアップのクロスモダリティが促進ます。融合。BridgeTower アーキテクチャは、さまざまなビジュアル、テキスト、またはクロスモーダル エンコーダーに適用できることに注意してください。

3. 設計上の選択

BridgeTower のさまざまな設計を選択して広範な実験を行いました。

3.1 BridgeLayer の定義

c869cd5f73d17a6e5e80016c3d5257f1.gif

ブリッジレイヤー

1 つ目は、BridgeLayer の定義、つまり、ユニモーダル情報とクロスモーダル情報を BridgeLayer に統合する方法です。

d2a5309eba3fa2ef6f13d215269df514.png

上の表は、BridgeLayer のさまざまな定義のパラメーターと、VQAv2 および Flickr30K データセットでのパフォーマンスを示しています。RSUM は、画像テキスト検索タスクのリコール メトリックの合計を表します。前のレイヤーの出力のクロスモーダル表現を表します。対応する単峰表現を示します。各行の used は省略します。やや予想外ですが、論理的には、最初の行のものは、最小数のパラメーターで最良の結果をもたらします。

3.2 クロスモーダル層の数

5be0403d8a4c9d2fa06ba009d06286a5.gif

クロスモーダルレイヤー

次に、12 層のテキスト エンコーダーとビジョン エンコーダーに基づいて、さまざまな数のクロスモーダル レイヤーがパフォーマンスに与える影響を調査します。

3f3f6707d08a837f26df2f88578193cf.png

はクロスモーダル層の数を示し、BridgeTower は Top- のユニモーダル表現をクロスモーダル層の入力として使用します。METER と BridgeTower のパフォーマンスを 2 つの異なるデータセットで比較したところ、クロスモーダル レイヤーを増やしても一貫してパフォーマンスが向上しないことがわかりました。これが原因である可能性があります

  1. クロスモーダル レイヤーが増えると、より多くのトレーニング データが必要になります。

  2. トップレベルのユニモーダル表現は、クロスモーダルの調整と融合に有益ですが、ボトムレベルのユニモーダル表現は、クロスモーダル表現の学習に不利であるか、有害でさえある可能性があります。METER と BridgeTower の唯一の違いはBridgeLayersですが、BridgeTower はさまざまな数のクロスモーダル レイヤーで一貫して一貫したパフォーマンスの向上を実現します。

3.3 BridgeLayers の数

9277df8a081705672ef09ad9f4960b61.gif

内部外部

最後は BridgeLayers の数です。つまり、同じ数のクロスモーダル レイヤーを使用する場合に追加する BridgeLayers の数です。

dd8702013db2be470811384c46728bc3.png

BridgeTower と Twin-Tower 構造の METER モデルを完全に比較するために、 BridgeTower から Two-Tower への段階的な変化のシナリオを構築しようとしました。公正な比較のために、合計 6 つのクロスモーダル レイヤーを使用し、それらを外部 (外部) クロスモーダル レイヤーと内部 (内部) クロスモーダル レイヤーに分割します。2 つの違いは、内側のクロスモーダル レイヤーには BridgeLayer があり、外側のクロスモーダル レイヤーにはありません。

最初の行は、6 つのクロスモーダル レイヤーがすべて内部にある BridgeTower の結果を示しています。その後、外側のレイヤーを徐々に増やし、内側のレイヤーを減らします。両方のデータセットでパフォーマンスが着実に低下しています。

最後の行は、ツインタワー構成の METER モデルのパフォーマンスを示しています。これは、BridgeLayers を介してシングルモーダル エンコーダーの最上位レイヤーをクロスモーダル エンコーダーの各レイヤーに接続することで、 BridgeTower がパフォーマンスを大幅に向上できることを示しています。

3.4 シングルモードエンコーダ

635a3f3d5b4ea0f988b17bed52aaa6e2.png

最後に、BridgeTower の事前トレーニング済みユニモーダル エンコーダーとしてさまざまなビジョン エンコーダーとテキスト エンコーダーを試し、BridgeLayers によってもたらされる影響をさらに調査するためにダウンストリーム タスクを直接微調整しました。BridgeTower は、さまざまな事前トレーニング済みのビジョンおよびテキスト エンコーダーでMETER のパフォーマンスを一貫して大幅に上回っていることがわかりました。

4. 実験結果

22b60b419d8de08a423d6832e058c03f.png

公開されている画像とテキストのデータセットに基づいて BridgeTower を事前トレーニングしました. 上の表に示すように、約 400 万の独立した画像と 900 万の画像とテキストのペアがあります。事前トレーニング タスクとして、一般的なマスク言語モデリング (MLM) タスクと画像テキスト マッチング (ITM) タスクを使用します。METER と BridgeTower を公平に比較​​できるように、すべての事前トレーニング設定と事前トレーニング パラメーターはMETER と一致しています。

7b785ba51847d4e17c6318907eb736bb.png

上の図は、Visual Question Answering (Base および Large) の VQAv2 データセットに対する BridgeTower モデルのモデル パフォーマンスを示しています。ビジョン言語の事前トレーニングでは、基本モデルは、事前トレーニングに 400 万枚の画像のみを使用して、VQAv2 ベンチマークで優れたパフォーマンスを達成します。

さらに、METER と BridgeTower は、同じテキスト エンコーダー、ビジュアル エンコーダー、およびクロスモーダル フュージョン メカニズムを使用します。METER モデルの Two-Tower アーキテクチャを BridgeTower アーキテクチャに変更するだけで、 VQAv2 データセットの Test-Standard パフォーマンスは、同じ事前トレーニング データとほとんど無視できる追加パラメータおよび計算コストの下で、 1.09だけ簡単に改善できます。BridgeTower のラージ モデルは、 VQAv2 データセットで81.15のテスト標準パフォーマンスを達成しました。

BridgeTowerは、VL の事前トレーニングに10 倍または100 倍も多くの画像を使用する多くのベース モデルおよびラージ モデルを上回り、より多くのデータとパラメーターで事前トレーニングされた多くの強力なモデルを打ち負かすことは注目に値します。

5476602cd3f2c860282c4ef2edabc570.png

同様の傾向は、視覚含意と画像テキスト検索のタスクにも見られます。特に Flickr30K データセットでは、BridgeTower の Base モデルは5.9ポイントの向上をもたらします。

5. 結果を視覚化する

パフォーマンス向上の理由をさらに調査するために、各クロスモーダル層の異なるアテンション ヘッドのアテンション ウェイト分布間の KL 発散を分析することにより、METER モデルをツイン タワー アーキテクチャおよび BridgeTower アーキテクチャと比較します。

KL ダイバージェンスは、アテンション ヘッドの多様性と見なすことができますKL ダイバージェンスが高いか低いかは、アテンション トークンが異なるアテンション ヘッド間でより異なっているか、より類似していることを示します。

21e8d74d198b7beb3dac3e3c28222ed9.jpeg

図中の小さな点は異なる注意ヘッドの注意分布間の KL 発散を表し、大きな点は同じ層の平均 KL 発散を表します。上の図は、METER モデルと BridgeTower モデルのクロスモーダル エンコーダーのビジュアル/テキスト部分の自己/相互注意層の違いを比較しています。

上の図は、視覚部分とテキスト部分に対するクロスモーダル エンコーダーの自己注意と、両方のモデルの相互注意に対する注意ヘッドの多様性を示しています。グラフには 2 つの明確な傾向があります。

  1. BridgeTower では、層が深くなるにつれて注目の頭の多様性が徐々に小さくなりますが、METER では、層が深くなるにつれて注目の頭の多様性が大きくなり、次に小さくなります。

  2. BridgeTower の各層における注目の対象の多様性は、特に層 1 から層 5 までの METERよりも大幅に大きくなっています

したがって、クロスモーダル エンコーダーの視覚部分とテキスト部分のセルフアテンションと、クロスアテンションの異なるアテンション ヘッドについては、BridgeTower はMETERよりも多様なトークンにアテンドできます。

これは、シングルモーダル エンコーダーの最上位レイヤーをクロスモーダル エンコーダーの各レイヤーに接続する、提案された BridgeLayers によるものです。異なるセマンティック レベルでの視覚的表現とテキスト表現は、 BridgeLayer を介してクロスモーダル表現と融合されます。これにより、クロスモーダル エンコーダーの各レイヤーで、より効率的リッチなクロスモーダル アラインメントと融合が促進されます。

6 結論

この論文では、シングルモーダルエンコーダーの最上位レイヤーとクロスモーダルエンコーダーの各レイヤー間の接続を確立するために複数の BridgeLayers を導入する BridgeTower を提案しますこれにより、事前トレーニングされたユニモーダル エンコーダーのさまざまなセマンティック レベルの視覚的およびテキスト表現を、 BridgeLayer を介してクロスモーダル表現と融合できるため、クロスモーダル エンコーダーで効率的なボトムアップのクロスモダリティが促進ます。融合。

BridgeTower は、視覚言語の事前トレーニングに 400 万枚の画像のみを使用して、下流のさまざまな視覚言語タスクで非常に強力なパフォーマンスを実現します。特に VQAv2 データセットでは、BridgeTower は78.73%の精度を達成しました。これは、同じ事前トレーニング データとほとんど無視できる追加パラメーターと計算コストの下で、Two-Tower アーキテクチャの METER モデルよりも1.09%高い精度です。モデルがさらに拡張されると、BridgeTower は81.15%の精度を達成し、桁違いに大きなデータセットでより多くのパラメーターを使用して事前トレーニングされたいくつかの強力なモデルを上回っていることは注目に値します。

7. 付録

以下を含む、より豊富な実験結果と分析を付録に示します。

  • シングルモード タスクでの BridgeTower および METER モデルのパフォーマンスと分析(CIFAR-10、CIFAR-100、GLUE)

  • BridgeTower モデルと METER モデルのパラメータ量計算量推論時間、性能を詳細に比較・分析

  • 他のダウンストリーム タスクでの BridgeTower のパフォーマンス (Visual Reasoning - NLVR、Image-Text Retrieval - COCO)

  • ケース固有の分析による、VQAv2 での BridgeTower モデルと METER モデルの詳細なパフォーマンス比較

  • BridgeTower の事前トレーニングとダウンストリーム タスクの微調整の詳細なパラメーター構成

興味のある学生は、私たちの論文、特にシングルモード タスクの実験結果と分析を読むことができます。この論文は、マルチモーダル学習の研究にとって非常に価値のある、ユニモダリティの実験結果に対する考慮事項と考えられる解決策を明確にしています。

本号の編集担当:シュウ・シャオ

この号の編集者: Tong Yanpeng

NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

惑星に参加すると、次のものが得られます。

1. 速読のために毎日3 ~ 5本の論文を更新する

2. 最新の入門および上級学習教材

3. デイリー1-3 AI職募集情報

44093e0ae57b619978f804589d8467fd.png

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/130164705