対照学習は何をするのでしょうか?

対照学習とは何ですか?

対照学習は「明確な定義や指針がない」状態にあるようです

対照学習とは何ですか? (これはWeChat のリンクです) 全文は比較的長いですが、論理的な枠組みはまだ優れています。

対照学習とは何か、または対照学習がどのように行われるかをより早く理解したい場合は、比較的「標準的な」対照学習モデルを紹介していると言える SimCLR モデルの記事を読むことができます。この記事では、SimCLR について説明します

それでは、対照学習の統一表現、あるいは対照学習の統一枠組みとは何でしょうか? この記事はそれを非常によく説明しています。

現時点では、対照学習のフレームワークは 3 つのタイプに要約できます。

  1. 否定的な例に基づいて:

    • 主にSimCLRに代表され、Moco V1などSimCLR(2020)以前にも多くの比較学習モデルが提案されていますが、このSimCLRの効果は以前のモデルと比べて明らかであり、対称的な構造を採用しています。そして表現しやすい。
  2. 非対称ネットワークに基づく

  3. 特徴無相関化 (または冗長性除去損失関数法) に基づく

序文

まず、論文のソースを移動します。

【論文一】ICML'20超球上の整列と均一性を通じた対照表現学習の理解

【文章二】CVPR'21対照的な損失の挙動を理解する

なぜこれら 2 つの論文を読むべきなのかについて話しましょう。実はそれは偶然のきっかけで、対照学習(Contrastive Learning)というものを見て、ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transferという記事からピットインしました(もちろん入門として)。対照的な学習を行っていますが、SimCLR の論文は単純だと今でも感じています)。そこで、なぜ対比学習がやや形而上学的なのか知りたかったのですが、このような気がしたのですが、証拠が不足しているような気がしたので、偶然この 2 つの記事を発見しました。

【記事 2】は【記事 1】の成果をある程度踏襲しているように感じますが、どちらの記事も、なぜ対照学習が機能するのかを数学的な観点から証明しています。

バックグラウンド

比較学習の考え方は非常に簡単です。つまり、類似したサンプルを近づけ、異なるサンプルを押しのけます。一般的に使用される比較損失は、バッチ内の負のサンプルのクロスエントロピー損失に基づいています。データセット D = { ( xi , xi + ) } i = 1 m D = \{(x_i,x_i^+)\}^m_{i=1}D={( x私はバツ+) }i = 1メートル,其中 x i x_i バツ私は x i + x_i^+ バツ+意味的に関連している場合、サイズ N のミニバッチ(xi , xi + ) (x_i, x_i^+)( ×私はバツ+)的训练目标为
ι i = l o g e s i m ( h i , h i + ) / τ ∑ j = 1 N e s i m ( h i , h j + ) / τ \iota_i = log\frac{e^{sim(h_i,h_i^+)/\tau}}{\sum^N_{j=1}e^{sim(h_i,h_j^+)/\tau}} 私は=ログ_ _j = 1Nes im ( h私はhj+) / tes im ( h私はh+) / t
しかし、対照学習において最も重要なことは、肯定的なインスタンス( xi , xi + ) (x_i,x_i^+)を構築することです。( ×私はバツ+)、対照学習が最初に CV 分野で始まった理由の 1 つは、画像 xi + x_i^ + の意味理解に影響を与えない肯定的なサンプルを構築するために、画像を回転、切り取り、歪ませることができることですバツ+最近、NLP 分野の多くのデータ拡張手法が、陽性サンプルを生成する手法に適用されています。

対照的な損失

[記事 1] で述べたように、一般的な対比損失は次の図に示されています。

画像-20211229195532089

の:

  • pos ( x , y ) pos(x,y)pos ( x , _y )は正のサンプルペアを表します。
  • xi − x_i^-バツxi x_iを意味しますバツ私は陰性サンプル。
  • f ( x ) f(x)f ( x )は訓練されたエンコーダです (私の現在の理解では、これはニューラル ネットワークだと思います)。

少し抽象的なので、比較のために SimCLR と CoonSERT の 2 つの論文で使用されている Loss を見てみましょう。これは理解しやすいです。画像-20211229200127546

計算方法については、このブログSimCLR で入り口として全体のプロセスが紹介されていますが、私の考えでは、分子は正のペア、つまり正のペア間の距離のみが考慮され、分母はすべてです。正のペア、サンプル ペア、負のサンプル ペアを含む距離。

もちろん、比較学習で使用される損失は他にもあります。

画像-20211229204241930

本文(第1条)

2つのプロパティ

まず、[記事 1] では、コントラスト損失に関連する 2 つの属性を特定しました。

  1. Alignmentこれは、陽性例とサンプル間の類似性 (緻密性または整列性)、つまり、類似したサンプルは類似した特性を有するかを測定するために使用されます。
  2. Uniformityすべてのデータのベクトルがどの程度均一に分散されているかを評価します。均一であればあるほど、より多くの情報が保持されます
画像-20211230160541607

ユニットハイパースフィアに機能を分散させる利点は何ですか?

  1. 固定ノルム ベクトルによりトレーニングの安定性が向上します。

  2. カテゴリの特徴をより適切にクラスタリングできれば、このカテゴリは特徴空間全体で線形分離可能になりやすくなります。

    画像-20211230160328465

この線形分離性について、この記事では実験が行われました。モデル フレームワークとして AlexNet を使用し、CIFAR-10 上で、ランダム初期化、教師あり分類学習、教師なし比較学習の 3 つの実験手法が比較され、表現効果が視覚化されました (I記事内でもそう感じました また、2次元の方が表示・表現しやすいため、2次元円法を採用しています 記事内では超球の概念が出てきましたが、この超球の次元mは一般に 2 より大きい):

画像-20211230161500705

上の図を簡単に分析してみましょう。

  • 1 つ目は、Alignment のヒストグラムです。ポジティブなサンプルのペアが非常に類似しており、その効果は悪くないことがわかります。
  • 均一性の図をもう一度見てみると、3 つの方法のうち最悪の方法は、もちろんランダム初期化です。これは、陽性サンプルのペアが非常に近い理由も反映しています。これは、すべてのサンプルが一緒に積み重ねられているためです。均一性によれば、このような特徴的な情報は超球面上に均等に分散することができないため、情報の機会を維持することができないと定義されています。
  • もう一度右端の 4 つの図を見てみましょう。比較学習のさまざまなカテゴリの表現が円のさまざまな位置に分布していることがわかります (円の図の下にある角度の分布図を参照)。
    • 教師あり学習と比較して、対比学習の分布はより均一であり、集約現象はありません。線形セグメンテーションの影響により、対比学習 (28.60%) は教師あり学習 (58.19%) よりもはるかに劣りますが、詳細は次のとおりです。学ぶために保持されます。

2 つの特性を測定する

記事に戻って、記事で言及されている損失を見てみましょう。画像-20211229195532089

文中将L 対照的 L_{対照的}L対照_ _ _ _ _ _ _ _それは 2 つの部分に分割されました (つまり、簡略化されました)。

画像-20211230222328531

アライメントと均一性の 2 つのプロパティを測定するために、2 つの損失が定義されます ( L align と L unique L_{align} と L_{uniform}L揃っ_ _ _そしてLあなたのため) はそれぞれ、次のようにこれら 2 つの属性に対応します (形式的には、f ( xi − ) T f ( x ) f(x_i^-)^Tf(x) を意味します。f ( x)T f(x)は ∣ ∣ f ( x ) − f ( y ) ∣ ∣ ||f(x)-f(y)|| になります∣∣ f ( x )f ( y ) ∣∣ ):

画像-20211230222514320

画像-20211230222534608

これを行う目的は、比較学習のメカニズムまたは良い効果の理由が、Alignment とUniformtiy の 2 つの属性によるものであることを証明するためであると感じます。その後、この記事では、単にこれら 2 つの定義に基づいて 2 つの損失を構築します。属性を定義し、これら 2 つの A 損失を直接最適化します。効果がL コントラスト L_{contrastive}よりも優れているかどうかを結論付けることができます。L対照_ _ _ _ _ _ _ _より良い。それが良い場合は、比較学習が確かに効果を高めるこれら 2 つの属性によるものであることが証明されます。

なぜこのように書くのですか? この記事では、式の推論を詳しく説明していますが、式の関係を説明するために、ここで少しだけ抜粋しました。

画像-20211230234124638

実験による証明

下の図から、直接最適化された損失 (下の図の小さな点) の方が高い精度を持っていることがはっきりとわかります。

画像-20211230223729052

下の図には、L align と L unique L_{align} と L_{uniform}も反映されています。L揃っ_ _ _そしてLあなたのため組み合わせが重要で、どれを単独で使用しても効果は良くありません(下図の縦軸は値を表すだけであり、特定の測定値ではないと思います、つまり、L align と L unique L_{align}とL_{制服}L揃っ_ _ _そしてLあなたのためできるだけ小さくする必要があります)。

画像-20211230232634595

本文(第2条)

まず第一に、比較学習における負のサンプルは、アンカー単純、つまりサンプルxi x_iに対して相対的である必要があります。バツ私はデータの増加に加えて、xi + x_i^+バツ+残りはネガティブサンプルです。

これは、ネガティブ サンプルには同じタイプの同様のサンプルが含まれているため、ネガティブ サンプルをさらにプッシュするほど、潜在的なセマンティック効果が悪化する理由も説明されています。これは、銀のグラデーションの猫の距離を押しのけることにつながり、潜在的な効果も破壊します。同様のサンプルのセマンティクス。これは、対比損失は意味論的な関係に注意を払わずに、異なるインスタンス (またはサンプル) を区別することのみを目的としているためです。

まとめ

この記事では主に比較学習の損失関数について説明し、比較学習の損失は硬度を考慮した損失関数であり、温度パラメータτ \tau であると考えています。τ は、ハード ネガティブ サンプルに対するペナルティの程度を制御できます (ペナルティが小さいほど、同様のネガティブ サンプルを分離してそれらを均一にすることが容易になります、つまり均一性)。ただし、均一性指標を過度に追求すると、類似サンプル(いわゆる類似サンプルとは、陽性サンプルと非常に類似しており、多くの場合、潜在的な陽性サンプルである可能性が高い陰性サンプルを指します)の空間分布が破壊され、下流のタスクにさらに影響を及ぼします。著者らはこの現象を均一性耐性の困難が、適切な温度係数τ \tauτ は、陰性サンプルの分離と類似サンプルの許容との間で適切なバランスをとることができます。

導入

著者が提案した意味構造の影響をよりよく理解するために、著者は次の図を使用して説明します。(a) (b) 2 つの埋め込み分布の場合、 xj と xk x_j と x_kとします。バツjそして×埋め込み交換では、比較学習の損失は変わりませんが、サンプル間の潜在的な意味構造を反映できるため、(a) の分散は (b) の分散よりも下流のタスクでパフォーマンスが高くなります。

実はこの図は側面から見た均一性耐性の特性も示しており、(a) 図では類似サンプル間の距離がそれほど遠くないことを示していますが、(b) 図中の類似サンプル間の距離は比較的遠いことがわかります (ただし、xj x_jの場合バツjそしてxk x_kバツ言い換えれば、サンプル間の距離が同じであるため、損失は同じです)下流タスクでは、結果は (a) の分布が良好であることを示しており、これは、類似したサンプル間の潜在的な意味論が保存できることを意味します。

画像-20220103211431079

同時に、この記事では、コントラスト損失に対する温度の影響についても説明しています。温度が低い場合、分布はより均一になります (ポジティブサンプル間の距離に近づくほど) が、温度が低い場合、コントラスト損失は最も近い陰性サンプルをより多く罰することがわかります。ペアを作成し、負のサンプル ペア間の距離を広げます。距離、このような方法には意味情報が含まれていません)、しかし、同様のサンプルの分離にもつながります。著者は、T-SNE を使用して、さまざまな温度での埋め込みの分布を視覚化します。

画像-20220103214834615


この記事全体では次の 3 つのタスクを実行しました。

  1. コントラスト損失は硬度を意識した損失の一種であり、この属性はコントラスト損失にとって非常に重要であると分析されました。
  2. グラジエント解析の観点から見ると、温度パラメーターはハードネガティブサンプルを処理するための重要なパラメーターです。
  3. これは、対照学習には実際に均一性と許容差の境界線が存在し、温度を適切に選択すると、均一性 (サンプルの均一な分布を確保するため) と許容差 (同様のサンプル間の距離を維持するため) の 2 つの属性のバランスを取ることができることを示しています。

硬度を考慮した特性の分析

まず、自己教師あり学習で広く使用されている対比損失 (InfoNCE 損失) の形式を与えます。

画像-20220103220742065

便宜上、著者はP i , j P_{i,j}を使用します。P j表現された ( xi x_iを意味します)バツ私はxj x_jとみなされますバツj確率):

画像-20220103220858800

比較学習損失の観点から ( i 番目のサンプルと別の拡張のコピー (つまり、正のサンプル) の間の類似性siが必要です。i s_{i,i}sできるだけ大きく、他のインスタンス (負のサンプル) si , k s_{i,k}との類似性s可能な限り小さい)、著者は単純な損失を定義します画像-20220103221350079

ただし、実際のトレーニング プロセスでは、L simple L_{simple}を使用します。L簡単です_ _この方法の効果は、ソフトマックス ベースのコントラスト損失ほど良くありません。

これは、ソフトマックス ベースのコントラスト損失が硬度を考慮した損失関数であり、均一な分布効果を達成するために陰性サンプルに自動的に焦点を合わせることができるためです。

勾配解析

次のように式 (1) の導出を見てみましょう (正の類似性と非類似性の偏導関数の結果)。

画像-20220104104502599

上記の式によれば、次の結論が得られます。

  1. 負のサンプルの場合、その勾配はexp ( si , j / τ ) exp(s_{i,j}/\tau)に比例します。e x p ( s j/ τ )は、コントラスト損失が硬度を考慮した損失関数であり、∂ L simple ∂ si , j = λ \frac{\partial L_{simple}}{\partial s_{i,j} とは異なることを示しています。 } =\ラムダ∂s _ j∂L _簡単です_ _=λは一定の比率です(つまり、すべての陰性サンプルの勾配は同じです)。
    • さらに考えると、すべての負のサンプル比率P i , j P_{i,j}について、P j分母の項が同じであれば、si , j s_{i,j} とします。s j大きいほど、P i , j P_{i,j}P j分子項目が大きいほど、勾配も大きくなります。-----> つまり、比較学習の損失は、より大きな勾配を持つ、より類似した陰性サンプル (ハード ネガティブ サンプル) を与えることです。陽性サンプルから
  2. 注意して観察すると、興味深い点が見つかります。それは、陽性サンプルの勾配がすべての陰性サンプルの勾配の合計に等しいということです。画像-20220104110422836

温度の影響

xj x_jの著者バツjこのネガティブ サンプルは、相対ペナルティ強度と呼ばれる値を定義します。

画像-20220104110714910

式 (5) はボルツマン分布を満たしており、分布のエントロピーは温度係数の増加に伴って厳密に増加します (証明は論文の補足実験で行われますが、ここでは詳しく説明しません)。

下図は、ネガティブサンプルの相対ペナルティと温度および類似度の関係を示したもので、温度が0.07など小さい場合、ネガティブサンプルに近いほどペナルティが大きくなり、類似度が大き​​くなることがわかります。逆に、温度が上昇すると、すべての陰性サンプルに対する罰は均一になります (つまり、平等に扱われていると感じられます)。

画像-20220104113701113


しかし、上記の問題はこのようにして現れ、小さい温度を追求しすぎると、直近の 1 ~ 2 個の陰性サンプルのみが罰せられることになるため、著者は数式の観点から 2 つの極端な例を検討します。温度は 0 と無限大に向かう傾向があります。2 つの状況。

  • 温度係数が 0 に近づく傾向がある場合、コントラスト損失は、最も困難なネガティブ サンプルのみに焦点を当てる損失関数に変質します。

画像-20220104114640354

  • 温度係数が無限大になる傾向がある場合、コントラストの損失はすべてのネガティブ サンプルで同じ重みを持ち、コントラストの損失により困難なサンプルの特性が失われます。

    画像-20220104114720672

    興味深いことに、温度係数が無限大に近づくと、損失は前に紹介した単純損失L simple L_{simple}になります。L簡単です_ _(公式(3))

明示的なハード ネガティブ サンプリング

記事の中で、著者は前任者の Zhuang et al. - LocalAggregationの成果を引用しています負のサンプルの勾配を計算する場合、損失を計算するために特定のしきい値より大きい負のサンプルを選択することを指します (たとえば、最も近い負のサンプルの上位 K を選択するなど)。

この場合、これは負のサンプルの効果を増幅することと同じなので、温度が高くなるとモデルの最終的な埋め込み分布はより均一になり、図に示すように温度が上昇するほど均一になりません。図 4 (下) より不均一ですが、図 6 の画像と同じです。

画像-20220104135334608

画像-20220104142442790

このようにして、均一性と耐性のジレンマにおける均一性の変化に対する温度調整の影響が軽減されます。

ハードコントラスト損失は次のように定義されます。

画像-20220104135646227

ここで、s α ( i ) s_{\alpha}^{(i)}sある()負のサンプルおよびアンカーxi x_{i}ですバツ私は[ s α ( i ) s_{\alpha}^{(i)}における類似性のカットオフ ポイントsある(),1.0] この区間 (情報区間) の負のサンプルは、情報を提供するハード ネガティブ サンプルとみなされます (アンカーにより類似しており、それらを分離するのがより困難です)、[-1.0 , s α ( i ) s_ { \alpha}^{(i)}sある()] この間隔は非情報間隔と呼ばれます。

損失を計算する場合、si , j < s α ( i ) s_{i,j}<s_{\alpha}^{(i)}s j<sある()ri ( si , j ) = 0 r_i(s_{i,j})=0のような負のサンプルr私は( s j)=0これは、元の陰性サンプル (図 3 など) の勾配比率分布を情報区間の区間に圧縮することに相当します。これにより、この区間の陰性サンプルに対するモデルの「罰」が強化され、xi x_iに火力が集中します。バツ私は同様の陰性サンプルは遠くに押しやられます。

均一性と耐性のジレンマ

埋め込みの均一性

著者は、以下の図に示すように、均一性と温度の関係を分析しました。

画像-20220104135334608

温度が低い場合、コントラスト損失によりアンカー サンプルと同様に陽性サンプルが分離される傾向があり、局所的な分布がよりまばらになることがわかります


ハードコントラスト損失の画像を見てみましょう。

画像-20220104142442790

ハードコントラスト損失は温度の影響をあまり受けず、その効果が高いレベルで維持されていることがわかります。

潜在的な陽性サンプルに対する耐性

比較学習後の効果は図1(a)で表すことができますが、温度が下がると同様のネガティブサンプルがアンカーサンプルから遠く離れてしまうことがわかっているため、この現象を測定するためにTolerance属性を提案します

著者は、次の公式を使用して、同じクラスに属する公差を測定します

画像-20220104144354958

いわゆる同じカテゴリーというのは犬も同じカテゴリーですが、車はどんな品種でもブランドでも同じカテゴリーです。


以下の図は、許容差に対する温度の影響を示しています。

画像-20220104144451218

同様に、 L ハード L_{hard}を見てみましょう。L難しい_ _耐性の効果:

画像-20220104145355727

H ハード H_{ハード}であるため、効果は通常のコントラスト損失ほど良くないことがわかりますが、これは確かです。H難しい_ _均一性が高いため、類似性が低下します。

ただし、図 6 と図 4 を比較すると、この時点で温度が上昇しても均一性が比較的安定していることがわかります。このとき、温度を上げると均一性を高めることなく許容値を増やすことができます。つまり、モデルによって得られる埋め込みを均一に保ち、局所的に集約することができ、それによって潜在的な意味構造を保持し、前に述べた均一性を破ることができます。 - 寛容のジレンマの問題。

実験による検証

次の図は、CIFAR100 への影響を示しています。結果は、温度が上昇するにつれて、陽性サンプルと陰性サンプルを分離することが実際に困難であることを証明しています (縦軸は距離を表します)。

画像-20220104150841791


一方、異なるデータセットの最適な温度係数も検証しました.下図の緑の列は、温度係数との比較損失のパフォーマンスを示しています。また、明示的に困難なサンプルを採取することで得られる損失の比較も検証しましたが、表示された困難なサンプルマイニングアルゴリズムを採用した後は、性能と温度係数の相関が弱まり、温度係数が適切な値よりも高い場合、損失が発生します。モデルのパフォーマンスはほぼ安定していました。

画像-20220104152403212

要約する

この記事では、対比損失 (Contrastive Loss) における温度係数を研究し、温度係数の具体的な役割を説明し、対比学習の学習メカニズムを探ります。

この論文の結果を要約すると、次のようになります。

  1. 対照的損失関数は、困難な負のサンプルを自己発見する特性を持つ損失関数であり、これは高品質の自己教師あり表現を学習するために重要であり、この特性を持たない損失関数は自己のパフォーマンスを大幅に低下させます。 -教師あり学習難しいサンプルに焦点を当てる役割は、すでに遠くにあるサンプルの場合、遠ざける必要はありませんが、主な焦点は、遠くないサンプルをどのように作成するかにあり、得られた表現空間が適切になるようにすることです。より均一(均一)です。
  2. 温度係数の役割は、難しいサンプルに対する注意の度合いを調整することです。温度係数が小さいほど、このサンプルを最も類似した他のサンプルから分離することにより多くの注意が払われます著者らは、温度係数に関する詳細な分析と実験を実施し、それらを使用して、対照学習がどのように有用な表現を学習できるかを説明しています。
  3. コントラストの損失には、均一性と耐性のジレンマ (均一性と耐性のジレンマ) があります。温度係数が小さいと、このサンプルに似た困難なサンプルの分離に重点が置かれるため、より均一な表現が得られる傾向があります。ただし、同じカテゴリの異なるインスタンスなど、困難なサンプルはこのサンプルとよく似ていることがよくあります。つまり、多くの困難な陰性サンプルは、実際には潜在的な陽性サンプルです。硬いサンプルから無理に分離すると、学習された潜在的な意味構造が破壊されます。

参考:

https://zhuanlan.zhihu.com/p/357071960

https://zhuanlan.zhihu.com/p/406628964

おすすめ

転載: blog.csdn.net/c___c18/article/details/131154322