視覚表現の対照的な学習のためのシンプルなフレームワーク

視覚表現の対照的な学習のためのシンプルなフレームワーク

1.要約

画像表現のための対比学習に基づくシンプルなフレームワークが提案されています。主な結論:(1)データ拡張の構成は、効果的な予測タスクを定義するために非常に重要です。(2)表現とコントラスト損失の間に非線形変換を導入することにより、学習表現の質が大幅に向上します。(3)対比学習では、バッチサイズとトレーニングステップの数を増やすとより効果的です。(教師あり学習と比較して)。効果:これは、ImageNetでの以前の自己監視および半監視の学習方法よりもはるかに優れています。SimCLRによって学習された自己監視表現に基づく線形分類器は、76.5%のトップ1の精度を達成します。これは、既存のテクノロジーよりも7%高く、監視対象のResNet-50のパフォーマンスに匹敵します。ラベルの1%のみが微調整されている場合、AlexNetラベルの100分の1の条件下で、上位5つの精度85.8%が達成されます。

2.モデルのアーキテクチャとアルゴリズム

学習表現方法:コントラストの損失を通じて、さまざまなデータ拡張方法を通じて、隠された空間で同じデータの一貫した表現を最大化します。
ここに画像の説明を挿入
基本的な考え方:バッチをランダムにサンプリングします。バッチ内の各画像に対して2つの拡張を行います。これは2つのビューと見なすことができます。同じ画像の異なるビューを潜伏空間に近づけ、異なる画像の視界は潜伏空間から遠く離れています。 NT-Xentの実装。

  • ランダムデータ拡張モジュール
    与えられたデータインスタンスをランダムに同じインスタンスの2つの関連するビューに変換し、それらをフロントビューのペアとして扱います。3つの単純な拡張機能を適用します。ランダムクロッピング、元のサイズへのサイズ変更、ランダムカラーディストーション、ランダムガウスブラー。その中で、ランダムクロッピングとカラーディストーションの組み合わせが優れたパフォーマンスの鍵です。
  • ネットワークベースエンコーダーf(・)は
    、ResNetを使用して、データサンプルの特徴抽出器として使用されますhi = f(xi)= R es N et(xi)h_i = f(x_i)= ResNet(x_i)h=f x=R e s N e t x
  • ネットワークマッピングヘッダーf(・)
    ここに画像の説明を挿入

  • 与えられたデータセットxk {x_k}の対照的な損失方程式バツK正の組み合わせxi x_iバツ xj x_j バツJ、与えられたxi x_iバツ、セットk≠ik \ neq ik=i 识别 x j x_j バツJ

ここに画像の説明を挿入
其中 s i m ( u , v ) = u T v / ∣ ∣ u ∣ ∣ ∣ ∣ v ∣ ∣ sim(u,v) = u^Tv/||u|| ||v|| s i m u v =あなたT v/uv; l [k≠i]∈0、1 l _ {[k \ neq i]} \ in { {0,1}}l[ k= I ]0 1k≠ik \ neq ik=iは1、それ以外の場合は0です。
ここに画像の説明を挿入
トレーニングが完了した、ダウンストリームタスクはエンコーダーf(・)と特性評価hのみを使用します。

3.主な結論

  • 優れた表現を学習するためには、データ拡張の構成が非常に重要です。
    ここに画像の説明を挿入
    モデルが対照的な予測タスクで十分に機能する場合でも、単一のデータ変換方法は、学習表現に平凡な影響を及ぼします。
    ここに画像の説明を挿入
    画像内のほとんどのパッチは、同様の色分布を持っています。画像を区別するには、カラーヒストグラムだけで十分です。ニューラルネットワークは、このショートカットを使用して予測タスクを解くことができます。したがって、一般化可能な機能を学習するには、トリミングに色の歪みを追加することが非常に重要です。

  • エンコーダーとヘッド構造

ここに画像の説明を挿入
モデルのサイズを大きくすると、教師あり学習と教師なし学習に基づいてトレーニングされた線形分類器の両方の予測効果が向上しますが、後者はより明らかに改善されます。
ここに画像の説明を挿入
非線形マッピングレイヤーを追加することによる効果は、マッピングレイヤーなしと線形マッピングレイヤーを追加するよりも優れています。ただし、マッピング層の前の非表示層の状態は、より多くの変換情報を保持するため、後者よりも優れています。
ここに画像の説明を挿入
その他の主なアブレーション実験の結論:
温度を調整できる正規化されたクロスエントロピー損失の損失関数を使用すると、L2ノルムを追加することでコントラストの精度が低下する可能性がありますが、表現の学習は改善されます。
ここに画像の説明を挿入
batch_sizeとトレーニング時間が大きいほど良いです。
ここに画像の説明を挿入
オンライン説明の1つであるMLP層に参加する理由について:データの非線形情報を学習できます。これは、前のステップの拡張機能です。この学習ステップにより、同じカテゴリのデータの共通の情報特性を取得できます。

おすすめ

転載: blog.csdn.net/pitaojun/article/details/108304558