【論文ノート】融合前に整列: 運動量蒸留による視覚と言語表現の学習

0. 序文 

【参考】複合型論文講義

2021 年までの調査に基づくと、いくつかの大きな傾向があります。

(1) モデルの視覚的能力はテキスト抽出能力よりも強力でなければなりません

(2) モデル融合は単純なドット積演算 (クリップ) だけではなく、より複雑な設計を持つ必要があります。

(3) 損失関数の選択: ① ITC ② MLM ③ ITM

WPA 損失関数が廃止された理由は、トレーニングに比較的大きなコストがかかるためです。(ViLTを参照)

1 はじめに

1.1 課題

(1) 画像の特徴と単語トークンの埋め込みはそれぞれ独自の空間に存在し、両者の関係をモデル化することが困難

(2) 物体検出器のラベル付けと計算コストが高すぎる

(3) ALT データセットのノイズがトレーニングに影響を与える (Web からクロールされたデータセットのほとんどは主にキーワードであり、うまく説明できません)

1.2 この論文の中心的な貢献

  • 提案された ALign BEFORE Fuse (ALBEF)
  • 提案された運動量蒸留 (MoD)

2.アルベフ

2.1 モデルのアーキテクチャ

  • ビジュアル エンコーダー: 12 層 VIT ベースの使用
  • テキスト エンコーダー: BERTbase[40] モデルの最初の 6 層
  • マルチモーダル エンコーダ: BERTbase の最後の 6 層

VILT経由の画像

2.2 事前学習用の 3 つの損失関数

ユニモーダル エンコーダでの画像テキスト対比学習 (ITC)、マルチモーダル エンコーダでのマスク言語モデリング (MLM)、および画像テキスト マッチング (ITM)。

2.2.1 画像とテキストの対照学習 (ITC)

通常のソフトマックス:

この論文のソフトマックス:

 この論文では、学習可能な温度パラメータ T を導入しています。

画像テキストの類似性とワンホット分布のソフトマックス類似性を通じてクロスエントロピー測定を取得します

2.2.2 マスクされた言語モデリング (MLM)

古典的なベルトトレーニング方法。入力トークンは 15% の確率でランダムにマスクされるため、ここでは 2 回目の前方パスが必要です。

2.2.3 画像とテキストのマッチング (ITM)

トレーニングのための計算オーバーヘッドをゼロにして、ITM タスクのハード ネガティブ データをサンプリングする戦略が提案されています。画像とテキストの対比学習で得られたソフトマックス類似度を使用して、画像 (またはテキスト) との類似性が高いテキスト (または画像) をサンプリングします。 )。

2.3 運動量蒸留 運動量蒸留

このアイデアは、Web からクロールされた画像とテキストを中国語に変換したテキストに基づいていますが、必ずしも画像を完全に説明しているわけではありません。

運動量モデル: 単一およびマルチモーダル エンコーダーの指数移動平均 (EMA) の構成

3. コード

コード部分については、「論文を読んでコードを見る」マルチモーダルシリーズ-ALBEFを参照してください。十分に詳細なので、車輪の再発明はしません

おすすめ

転載: blog.csdn.net/weixin_50862344/article/details/131213928