ALBEF: 運動量蒸留に基づいた視覚言語表現の学習

Align before Fuse: 運動量蒸留による視覚と言語表現の学習
ALBEF: 運動量蒸留に基づく視覚言語表現学習

まとめ

大規模な視覚および言語表現の学習により、さまざまな視覚言語タスクで有望な改善が見られます。既存の手法のほとんどは、Transformer ベースのマルチモーダル エンコーダを採用して、ビジュアル タグ (領域ベースの画像特徴) と単語タグを共同でモデル化します。視覚的なタグと単語のタグには一貫性がないため、マルチモーダル エンコーダーが画像とテキストの相互作用を学習するのは困難です。この論文では、クロスモーダル注意による ALign BEFORE Fusing (ALBEF) の画像とテキスト表現に対する対照的な損失を紹介します。これにより、視覚表現と言語表現の学習がより根拠のあるものになります。ほとんどの既存の方法とは異なり、私たちの方法は境界ボックスの注釈や高解像度の画像を必要としません。ノイズの多いネットワーク データの学習を改善するために、運動量モデルによって生成された疑似ターゲットから学習する自己学習方法である運動量蒸留を提案します。相互情報量の最大化の観点から ALBEF の理論的分析を実行し、異なるトレーニング タスクが画像とテキストのペアのビューを生成する異なる方法として解釈できることを示します。ALBEF は、複数の下流のビジュアル言語タスクで最先端のパフォーマンスを実現します。画像とテキストの検索では、ALBEF は、桁違いに大きなデータセットで事前トレーニングされたメソッドよりも優れたパフォーマンスを発揮します。VQA と NLVR2 では、ALBEF は最先端の手法と比較して 2.37% と 3.84% の絶対的な改善を達成し、より高速な推論速度を実現します。

1 はじめに

視覚と言語の事前トレーニング (VLP) は、大規模な画像とテキストのペアからマルチモーダル表現を学習して、下流の視覚と言語 (V+L) タスクを改善することを目的としています。ほとんどの既存の VLP 手法 (LXMERT、UNITER、OSCAR など) は、事前トレーニングされたオブジェクト検出器に依存して領域ベースの画像特徴を抽出し、マルチモーダル エンコーダーを使用して画像特徴と単語タグを融合します。マルチモーダル エンコーダーは、マスク言語モデリング (MLM)や画像とテキストのマッチング (ITM) など、画像とテキストの共同理解を必要とするタスクを解決するようにトレーニングされていますこの VLP フレームワークは効果的ではありますが、いくつかの重要な制限があります: (1) 画像の特徴と単語トークンが独自の空間に埋め込まれているため、それらの相互作用をモデル化するためのマルチモーダル エンコーダーの学習が困難になります; (2) オブジェクト検出器の注釈と計算はコストがかかるため、事前トレーニング中には境界ボックスの注釈が必要であり、トレーニング中には高解像度 (例: 600 × 1000) 画像が必要です。(3) 広く使用されている画像テキスト データセットはインターネットから収集されており、本質的にノイズが多く、MLM などの既存の事前トレーニング ターゲットはノイズのあるテキストに過剰適合し、モデルの汎化パフォーマンスが低下する可能性があります。

私たちは、これらの制限に対処するための新しい VLP フレームワークである ALign BEFORE Fuse (ALBEF) を提案します。まず、検出器なしの画像エンコーダーとテキスト エンコーダーを使用して、画像とテキストを個別にエンコードします。次に、マルチモーダル エンコーダーを使用して、クロスモーダル アテンションを通じて画像の特徴とテキストの特徴を融合します。シングルモーダル エンコーダの表現に中間画像テキスト コントラスト (ITC) 損失を導入します。これには次の 3 つの目的があります: (1) 画像特徴とテキスト特徴に一貫性があり、マルチモーダル エンコーダがクロスモダリティを実行しやすくなります ( 2) 画像とテキストのセマンティクスをよりよく理解するためにシングルモーダル エンコーダを改善します; (3) 画像とテキストを埋め込むための共通の低次元空間を学習し、画像とテキストのマッチングを可能にします 目標は、より有益なサンプルを見つけることです対照的なハードネガティブサンプルマイニングを通じて。

ノイズの多い監視下での学習を改善するために、モメンタム蒸留 (MoD) を提案します。これは、モデルがより大規模でキュレートされていないネットワーク データセットを活用できるようにするシンプルな方法です。トレーニング中に、パラメーターの移動平均を取ることでモデルの運動量バージョンを保存し、その運動量モデルを使用して追加の監視として疑似ターゲットを生成します。MoD を使用すると、モデルは、ネットワーク アノテーションとは異なる妥当な出力を生成してもペナルティを受けません。

MoD が事前トレーニングを改善するだけでなく、下流タスクのクリーンなアノテーションも改善することを示します。相互情報最大化の観点からALBEFの理論的議論を行った。具体的には、ITC と MLM が、画像とテキストのペアの異なるビュー間の相互情報の下限を最大化することを示します。ここで、ビューは各ペアから部分情報を取得することによって生成されます。この観点から、私たちの運動量の蒸留は、意味的に類似したサンプルを使用して新しいビューを生成すると解釈できます。したがって、ALBEF は、意味を保持する変換に対して不変である視覚言語表現を学習します。

我々は、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的ネスティング、および弱監視視覚的位置特定を含む、さまざまな下流の V+L タスクにおける ALBEF の有効性を実証します。ALBEF は、既存の最先端の手法と比較して大幅な改善を実現します。画像とテキストの検索では、桁違いに大きなデータセットで事前トレーニングされたメソッド (CLIP および ALIGN) を上回ります。VQA および NLVR2 では、最先端の手法 VILLA と比較して 2.37% および 3.84% の絶対的な向上を達成し、より高速な推論速度を実現します。また、Grad-CAM を使用して ALBEF の定量的および定性的分析を実行し、正確なオブジェクト、属性、および関係の基礎付けを暗黙的に実行する能力を明らかにしました。

2.関連作品

2.1 視覚言語表現の学習

視覚言語表現学習に関する既存の研究のほとんどは 2 つのカテゴリに分類されます。最初のカテゴリは、トランスフォーマーベースのマルチモーダル エンコーダーを使用した画像とテキストの特徴間の相互作用のモデル化に焦点を当てています。このクラスのメソッドは、画像とテキストに対する複雑な推論を必要とする下流の V+L タスクで優れたパフォーマンスを達成していますが、そのほとんどは高解像度の入力画像と事前トレーニングされたオブジェクト検出器を必要とします。最近のアプローチでは、オブジェクト検出器を削除することで推論速度が向上しますが、パフォーマンスは低下します。2 番目のカテゴリは、画像とテキストの個別のシングルモーダル エンコーダーの学習に焦点を当てています。最近の CLIP と ALIGN は、表現学習に最も効果的な損失の 1 つである対照損失を使用して、大量のノイズの多いネットワーク データを事前トレーニングします。画像とテキストの検索タスクでは優れたパフォーマンスを達成しますが、他の V+L タスクでは画像とテキストの間のより複雑な相互作用をモデル化する能力がありません。

ALBEF はこれら 2 つのカテゴリを統合し、検索タスクと推論タスクの両方で優れたパフォーマンスを備えた強力なシングルモーダル表現とマルチモーダル表現を可能にしますさらに、ALBEF は、多くの既存の手法にとって計算上の大きなボトルネックとなっているオブジェクト検出器を必要としません。

2.2 知識の蒸留

知識の蒸留は、通常、生徒の予測を教師の予測と照合することによって、教師モデルから知識を抽出することにより、生徒モデルのパフォーマンスを向上させることを目的としています。ほとんどの方法は、事前トレーニングされた教師モデルから知識を洗練することに重点を置いていますが、オンライン洗練では複数のモデルを同時にトレーニングし、それらを教師として組み合わせます。私たちの運動量蒸留法は、オンライン自己蒸留の一種として解釈でき、学生モデルの時間的アンサンブルが教師として使用されます。同様のアイデアは、半教師あり学習、ラベルノイズ学習、そして最近では対照学習でも検討されています。既存の研究とは異なり、運動量蒸留が多くの V+L タスクでモデルのパフォーマンスを向上させることができる一般的な学習アルゴリズムであることを理論的および実験的に示します。

3.ALBEF事前トレーニング

ここに画像の説明を挿入します
図 1: ALBEF の図。画像エンコーダ、テキストエンコーダ、マルチモーダルエンコーダで構成されます。融合前に画像とテキストのペアの単一モーダル表現を揃えるために、画像とテキストのコントラスト損失を提案します。画像とテキストのマッチング損失 (対照的な類似性によってマイニングされたバッチ内のハード ネガを使用) とマスクされた言語モデルの損失は、画像とテキスト間のマルチモーダルな相互作用を学習するために使用されます。ノイズの多いデータの学習を改善するために、運動量モデル (ベース モデルの移動平均バージョン) を使用して、トレーニング中の追加の監視として擬似ターゲットを生成します。

3.1 モデル構造

図 1 に示すように、ALBEF には画像エンコーダー、テキスト エンコーダー、およびマルチモーダル エンコーダーが含まれています。12 層 ViT-B/16 を画像エンコーダーとして使用し、ImageNet-1k で事前トレーニングされた重みで初期化します。入力画像 I は、一連の埋め込み: {v cls , v 1 , …, v N } としてエンコードされます。ここで、v cls は[CLS] タグ付きの埋め込みです。テキスト エンコーダーとマルチモーダル エンコーダーの両方に 6 層トランスフォーマーを使用します。テキスト エンコーダは BERT基本モデルの最初の 6 層を使用して初期化されますが、マルチモーダル エンコーダはBERT基本モデルの最後の 6 層を使用して初期化されます。テキスト エンコーダは、入力テキスト T を埋め込みシーケンス {w cls , w 1 , …, w N } に変換し、それをマルチモーダル エンコーダに供給します。マルチモーダル エンコーダの各層では、アテンション メカニズムを通じて画像の特徴とテキストの特徴が融合されます。

3.2 トレーニング前の目標

シングルモーダル エンコーダーでの画像テキスト対比学習 (ITC)、マルチモーダル エンコーダーでのマスク言語モデリング (MLM) と画像テキスト マッチング (ITM) の 3 つの目的で ALBEF を事前トレーニングしますオンラインでのハードツーネガティブサンプルマイニング比較を通じてITMを改善します。

画像とテキストの対比学習の目的は、融合前により優れた単一モダリティ表現を学習することです。類似性関数 s=gv(vcls)>gw(wcls) を学習し、並列の画像とテキストのペアがより高い類似性スコアを持つようにします。g vと g wは、[CLS] 埋め込みを正規化された低次元 (256-d) 表現にマッピングする線形変換です。MoCo からインスピレーションを受け、ベクトル ユニモーダル エンコーダーからの最新の M イメージとテキスト表現を保存するために 2 つのキューが維持されます。ベクトル エンコーダからの正規化された特徴は、g' v (v' cls ) および g' w (w' cls ) と呼ばれます。
ここに画像の説明を挿入します
画像とテキストごとに、画像とテキストとテキストと画像のソフトマックス正規化類似度を次のように計算すると定義します。 ここで、τここに画像の説明を挿入します
は学習可能な温度パラメータです。y i2t (I) と y t2i (T) が真のワンホット類似度を表すものとします。ここで、負のサンプル ペアの確率は 0、正のサンプル ペアの確率は 1 です。画像とテキストのコントラスト損失関数は、p と y のクロスエントロピー H として定義されます。ここに画像の説明を挿入します
マスクされた言語モデルは、画像と文脈テキストを使用してマスクされた単語を予測します。入力トークンを 15% の確率でランダムにマスクし、特別なトークン [MASK] に置き換えます。^ T が遮蔽されたテキストを表し、 p msk (I, ^ T ) が遮蔽されたタグのモデルの予測確率を表すものとします。MLM はクロスエントロピー損失を最小限に抑えます。
ここに画像の説明を挿入します
ここで、 y msk は、グラウンド トゥルース トークンの確率が 1 であるワンホット語彙分布です。

画像とテキストのマッチングでは、画像とテキストのペアが肯定的 (一致) であるか否定的 (不一致) であるかを予測します。画像とテキストのペアの結合表現としてマルチモーダル エンコーダー ペア [CLS] ラベル付き出力埋め込みを使用し、完全接続 (FC) 層を追加してから、ソフトマックスを使用して 2 クラス確率 p itmを予測しますITM の損失は次のとおりです。ここに画像の説明を挿入します
ここで、 y itmは、グラウンド トゥルース ラベルを表す 2 次元のワンホット ベクトルです。計算オーバーヘッドをゼロにして ITM タスクのハード ネガティブ サンプルを抽出する戦略を提案します。ネガティブな画像とテキストのペアは、セマンティクスが似ていても、微妙な細部が異なる場合には困難です。式 1 の対照的類似性を使用して、バッチ内で陰性になりにくいサンプルを見つけます。ミニバッチ内の各画像について、対比類似度分布に従って同じバッチからネガティブ テキストを抽出します。画像により類似したテキストほど抽出される可能性が高くなります。同様に、各テキストのネガティブになりにくいサンプル画像も抽出します。ALBEF の完全な事前トレーニング目標は次のとおりです。
ここに画像の説明を挿入します

3.3 運動量蒸留

事前トレーニングに使用される画像とテキストのペアのほとんどはインターネットから収集されたものであり、ノイズが多いことがよくあります。肯定的なテキストのペアは関連性が弱いことがよくあります。テキストに画像に関連しない単語が含まれている場合や、画像にテキストで説明されていないエンティティが含まれている場合があります。ITC 学習の場合、画像のネガティブ テキストも画像の内容と一致する場合があります。MLM の場合、画像を同等に (またはそれ以上に) 説明する注釈とは異なる他の語彙が存在する可能性があります。ただし、ITC と MLM の単発ラベルは、その正しさに関係なく、すべての否定的な予測にペナルティを与えます。

この問題を解決するために、運動量モデルによって生成された擬似目的から学習することを提案します。モメンタム モデルは、シングルモーダル エンコーダーとマルチモーダル エンコーダーの指数移動平均バージョンで構成される進化する機能です。トレーニング中に、ベース モデルの予測が運動量モデルの予測と一致するようにベース モデルをトレーニングします。具体的には、ITC の場合、最初に運動量シングルモーダル エンコーダーの機能を使用して画像とテキストの類似性を計算します。つまり、次に、
ここに画像の説明を挿入します
式 1 の s を s' に置き換えることによって、ソフト偽ターゲット q i2tおよび q t2iを計算します。ITC MoD損失は次のように定義されます。
ここに画像の説明を挿入します
同様に、MLM の場合、運動量モデルによるマスクされたトークンの予測確率を q msk (I, ^ T) とすると、MLM MoD損失は次のようになります。
ここに画像の説明を挿入します
図 2 では、擬似から次のことを示します。画像の関連語彙/テキストを効果的にキャプチャするターゲットの上位 5 つの候補の例。
ここに画像の説明を挿入します
図 2: MLM (1 行目) と ITC (2 行目) の擬似ターゲットの例。疑似ターゲットは、実際のテキストでは説明されない視覚的な概念 (「美しい滝」、「若い女性」など) をキャプチャできます。

MoD は下流のタスクにも適用されます。各タスクの最終的な損失は、元のタスクの損失と、モデルの予測と疑似ターゲットの間の KL 発散との重み付けされた組み合わせです。簡単にするために、すべての事前トレーニングおよび下流タスクの重み α = 0.4 を設定します。

3.4 事前トレーニングデータセット

UNITER に従って、2 つのネットワーク データセット (Conceptual Captions、SBU Captions) と 2 つのドメイン内データセット (COCO および Visual Genome) を使用して事前トレーニング データを構築します。一意の画像の総数は 400 万、画像とテキストのペアの数は 510 万です。私たちの手法が大規模なネットワーク データに対して拡張可能であることを実証するために、よりノイズの多い概念 12M データセットも含めて、画像の総数を 1410 万に増やしました。

3.5 実装の詳細

私たちのモデルは、 1 億 2,370 万のパラメータを備えたBERTベースと、8,580 万のパラメータを備えた ViT-B/16 で構成されています。バッチ サイズ 512 を使用して、8 つの NVIDIA A100 GPU で 30 エポックのモデルを事前トレーニングしました。重み減衰 0.02 の AdamW オプティマイザーを使用します。最初の 1000 回の反復中に、学習率は 1e -4までウォームアップされ、その後コサイン スケジュールで 1e -5まで減衰します。事前トレーニング中に、解像度 256×256 のランダムな画像クロップを入力として取得し、RandAugment を適用します。微調整プロセス中に、画像の解像度を 384 × 384 に高め、画像パッチの位置エンコーディングを補間します。運動量モデルの更新に使用される運動量パラメーターは 0.995 に設定され、画像とテキストの比較学習に使用されるキュー サイズは 65,536 に設定されます。最初のエポックでは、蒸留重量 α を 0 から 0.4 まで直線的に増加させます。

4. インタラクティブな情報を最大化する視点

ITC、MLM、および国防省は、意見を生成するための異なる方法として解釈できます。形式的には、2 つの確率変数 a と b をデータ ポイントの 2 つの異なるビューとして扱います。自己教師あり学習では、a と b は同じ画像の 2 つの強化された値です。視覚言語表現の学習では、a と b は、意味論を捉えることができる画像とテキストのペアの異なるバリエーションであると考えられます。私たちの目標は、変化を表示するために不変な表現を学習することです。これは、a と b の間の MI を最大化することで実現できます。実際には、InfoNCE 損失を最小化することによって MI(a,b) の下限を最大化します。
ここに画像の説明を挿入します
ここで、s(a,b) はスコアリング関数 (たとえば、2 つの表現間のドット積) であり、^B には正のサンプル b が含まれ、 |^B|-1 は、提案された分布から抽出された負のサンプルです。ITC 損失 (式 2) は次のように書き換えることができます。
ここに画像の説明を挿入します
L itc の最小化は、InfoNCE の最大化の対称バージョンとみなすことができます。したがって、ITC は 2 つの別個のモダリティ (つまり、I と T) を画像とテキストのペアの 2 つのビューとして扱い、前方ペアの画像ビューとテキスト ビューの間の MI を最大化するように単一モダリティ エンコーダーをトレーニングします。

MLM は、遮蔽された単語トークンとその遮蔽された背景 (つまり、画像 + 遮蔽されたテキスト) の間の MI を最大化すると解釈することもできます。具体的には、ワンショット ラベリング (式 3) を使用して MLM 損失を次のように書き換えることができます。 ここで、ここに画像の説明を挿入します
ψ(y): V→R dは、単語 y をベクトルにマップするマルチモーダル エンコーダの出力層のルックアップ関数です。 , V は完全な語彙セットであり、f(I,^T) はマスクされたコンテキストに対応する、マルチモーダル エンコーダーの最終的な隠れ状態を返す関数です。したがって、MLM は、画像とテキストのペアの 2 つのビューを次のようにみなします: (1) ランダムに選択された単語トークン、および (2) 画像 + 単語がマスクされた文脈テキスト。

ITC と MLM はどちらも、画像とテキストのペアから部分情報を取得し、パターン分離または単語マスキングを使用してビューを生成します。私たちの運動量の蒸留は、提案された分布全体から代替ビューを生成すると見ることができます。式 6 の ITCMoD を例にとると、KL(pi2t (I), q i2t (I)) を最小化することは、目的を最小化することと同じです。ここに画像の説明を挿入します
画像 I と同様のセマンティクスを持つテキストの場合、MI(I, Tm) を作成できます。これらのテキストはより大きな q i2t m (I)を持つため、 は最大化されます同様に、T に類似した画像の場合、ITCMoD は MI(Im, T) を最大化することもできます。同じアプローチに従って、MLMMoD がマスクされた単語 y mskに対して代替ビュー y' ∈ V を生成し、y' と (I, ^ T) の間の MI を最大化することを示すことができます。したがって、運動量の抽出は、元のビューのデータ拡張として考えることができます。モメンタム モデルは、元の画像とテキストのペアには見られない多様なビューのセットを生成し、基礎となるモデルがビュー変数の意味論的な情報を取得する表現を学習するように促します。

5. ダウンストリーム V+L タスク

画像テキスト検索は、画像テキスト検索 (TR) とテキスト画像検索 (IR) の 2 つのサブタスクで構成されます。Flickr30K および COCO ベンチマークで ALBEF を評価し、各データセットのトレーニング サンプルを使用して事前トレーニングされたモデルを微調整します。Flickr30K のゼロショット検索では、COCO の微調整モデルを使用して評価しています。微調整プロセス中に、ITC 損失 (式 2) と ITM 損失 (式 4) を共同で最適化します。ITC は単一モーダル特徴の類似性に基づいて画像とテキストのスコアリング関数を学習し、一方 ITM は画像とテキスト間のきめ細かい相互作用をモデル化して一致スコアを予測します。下流のデータセットには画像ごとに複数のテキストが含まれているため、キュー内の複数の陽性例を考慮して ITC のグラウンド トゥルース ラベルを変更します。ここで、各陽性例のグラウンド トゥルース確率は 1/# 陽性例です。推論中、最初にすべての画像とテキストのペアの特徴類似性スコアを計算します。次に、上位 k 人の候補者を選択し、順位付けのための ITM スコアを計算します。k は非常に小さく設定できるため、すべての画像とテキストのペアの ITM スコアを計算する必要がある方法よりも推論がはるかに高速になります。

6. 実験

6.1 提案手法の評価

まず、提案された方法(つまり、画像とテキストの対比学習、対比ハードトゥネガティブサンプルマイニング、および運動量蒸留)の有効性を評価します。表 1 は、私たちのメソッドのさまざまなバリエーションを使用したダウンストリーム タスクのパフォーマンスを示しています。ベースラインの事前トレーニング タスク (MLM+ITM) と比較して、ITC を追加すると、すべてのタスクで事前トレーニング モデルのパフォーマンスが大幅に向上します。提案されているハード ネガティブ サンプル マイニングは、より有益なトレーニング サンプルを見つけることで ITM を改善します。さらに、運動量蒸留を追加すると、ITC (行 4)、MLM (行 5)、およびすべての下流タスク (行 6) の学習が向上します。最後の行では、ALBEF がよりノイズの多いネットワーク データを効果的に利用して、事前トレーニングのパフォーマンスを向上できることを示しています。
ここに画像の説明を挿入します
表 1: 4 つの下流 V+L タスクに対する提案手法の評価。テキスト検索 (TR) と画像検索 (IR) については、R@1、R@5、および R@10 の平均値を報告します。ITC: 画像とテキストの対照学習。MLM: マスクされた言語モデリング。ITMハード: 画像とテキストのマッチングおよび対照的なハード ネガティブ サンプル マイニング。MoD: モメンタム蒸留。MoD下流: 下流タスクの勢い蒸留。

6.2 画像およびテキスト検索の評価

表 2 と表 3 は、それぞれ微調整とゼロサンプルの画像とテキストの検索の結果を報告します。当社の ALBEF は、はるかに大規模なデータセットでトレーニングされた CLIP や ALIGN を上回る、最先端のパフォーマンスを実現します。トレーニング画像の数が 4M から 14M に増加すると ALBEF が大幅に向上することを考えると、大規模なネットワーク画像とテキストのペアでトレーニングすることで ALBEF がさらに成長する可能性があると仮説を立てます。
ここに画像の説明を挿入します
表 2: Flickr30K および COCO データセットでの微調整された画像とテキストの取得結果
ここに画像の説明を挿入します
表 3: Flickr30K でのゼロショットの画像とテキストの取得結果

表 6 は、さまざまなデザインの選択が画像とテキストの検索に及ぼす影響を調査したものです。推論中に上位 k 個の候補をフィルタリングするために s itc を使用するため、k を変化させ、その効果を報告します。一般に、 s itmによって得られるランキング結果は、k の変化の影響を受けません。最後のコラムでは、ネガティブになりにくいサンプル マイニングの効果も検証します。ここに画像の説明を挿入します
表 6: 画像テキスト検索の微調整に関するアブレーション研究。テストセットの平均再現率が報告されます。s itcを使用して上位 k 位の候補をフィルタリングし、ランキング用のitmスコアを計算します。

7.結論

本稿では、視覚言語表現学習のための新しいフレームワークであるALBEFを提案する。ALBEF は、まずシングルモーダル画像表現とテキスト表現を統合し、次にそれらをマルチモーダル エンコーダーと融合します。提案された画像とテキストの対比学習と運動量蒸留の有効性を理論的および実験的に検証します。既存の手法と比較して、ALBEF は複数のダウンストリーム V+L タスクでパフォーマンスが向上し、推論速度が速くなります。
推奨書籍:
ALBEF: 「Align before Fuse」
新しいマルチモーダル比較学習方法である ALBEF は、SOTA よりも優れた結果を達成します

おすすめ

転載: blog.csdn.net/zag666/article/details/130290466