自己教師あり学習の概要

1. 自己教師あり学習

自己教師あり学習は、ラベルなしのデータを利用するため、特殊な種類の教師なし学習 (ただし教師なし学習ではありません) と見なすことができるサブカテゴリです。

  • 重要なアイデアは、手動でラベルを付けずにモデルにデータ表現を学習させることです。モデルがデータの表現方法を学習したら、それを少量のラベル付きデータを使用して下流タスクで使用して、自己教師あり学習なしのモデルと同等またはそれ以上のパフォーマンスを達成できます。

1.1 自己教師あり学習のステップ

  1. データの理解に基づいて、ラベルのないデータから入力データとラベルをプログラムで生成します。
  2. 事前トレーニング: 前のステップのデータ/ラベルを使用してモデルをトレーニングします。
  3. 微調整: 事前トレーニングされたモデルを初期重みとして使用して、対象のタスクをトレーニングします。

2 番目のステップで自動生成されたラベルの代わりに手動でラベル付けされたデータを使用する場合、そのデータは教師あり事前トレーニング (転移学習と呼ばれるステップ) の対象になります。

1.2 自己教師あり学習の重要性

自己教師あり学習は、テキスト、画像/ビデオ、音声、グラフィックスなどの複数の領域で成功を収めています。基本的に、自己教師あり学習はラベルのないデータをマイニングし、パフォーマンスを向上させます。Yann Lecun のケーキ (ビデオ、スライドショー) の比喩のように、この自己教師あり学習 (ケーキ ジェノワーズ) はサンプルあたり数百万バイトを食べることができますが、教師あり学習 (アイシング) は 10 ~ 10,000 バイトしか食べることができません。つまり、自己教師あり学習は、教師あり学習よりも各サンプルからより有用な情報を取得できます。

人間が生成したラベルは、データの特定のビューに焦点を当てていることがよくあります。たとえば、画像認識では「馬」という単語のみを使用して、牧草地にある馬の画像 (以下に示すように) を記述し、セマンティック セグメンテーション用のピクセル座標を提供できます。ただし、データにはさらに多くの情報が含まれています。たとえば、馬の頭と尾が体の反対側にある、馬は通常 (下ではなく) 草の上にあるなどです。これらのモデルは、手動ラベルではなく、データから直接、より適切で複雑な表現を学習できます。言うまでもなく、手動によるラベル付けは間違っている場合があり、それがモデルに悪影響を及ぼします。実験的研究では、PASCAL データセットをクリーンアップすると MAP が 13 向上することが示されています。最先端のものと比較しなくても、ラベルの誤りがパフォーマンスの低下につながる可能性があることがわかります。

ここに画像の説明を挿入

データのラベル付けは、コスト、時間、労力がかかります。さらに、教師あり学習方法では、新しいデータ/ラベルと新しいタスクに対して異なるラベルが必要です。さらに重要なことは、画像ベースのタスク (つまり、画像認識、オブジェクト検出、セマンティック セグメンテーション) の場合、自己教師あり事前トレーニングの方が教師あり事前トレーニングよりもさらに優れていることが判明したことです [ref]。

** つまり、データから直接情報を抽出することは、手動でラベルを付けるよりも役立ちます。**そうですね、タスクにもよりますが、より高度な自己教師あり学習には、現在または近い将来、多くの高価なラベルは必要ないかもしれません。

最近の深層学習のトレンドにおいて他の領域よりも長い歴史を持つ画像領域の大規模なラベル付きデータセットのおかげで、自己教師あり学習の優位性が画像ベースのタスクで検証されています。今後、他の分野でも同様のメリットが発揮されると思います。したがって、自己教師あり学習は機械学習の分野を進歩させるために非常に重要です。

1.3 自己教師ありモデルの使用方法

通常、自己教師ありモデルがリリースされると、事前学習済みモデルをダウンロードできます。その後、事前トレーニングされたモデルを微調整し、その微調整されたモデルを特定の下流タスクに使用できます。たとえば、おそらく自己教師あり学習の最も有名な例は BERT (参考文献) です。BERT は、自己教師あり学習方式で 33 億語について事前トレーニングされています。モデルを最初からトレーニングするよりもはるかに少ない労力とデータで、文の分類などのテキスト関連のタスクのために BERT を微調整できます。微調整された BERT モデルに基づいて、ツイート メッセージが Hugging Face (リンク) に関するイーロン マスクからのものであるかどうかを予測するアプリケーションを作成しました。作成方法については別記事に書きます。気軽に遊んで楽しんでください!

2. 自己教師あり学習の種類

2.1 生成方法

元の情報の
復元 非自己回帰:マーカー/ピクセルをマスクし、マスクされたマーカー/ピクセルを予測する(例えば、マスクされた言語モデリング(MLM))
b.自己回帰: 次のマーカー/ピクセルを予測し、
ここに画像の説明を挿入
周囲のデータからマスクされた入力を予測することは、自己教師あり手法の最も初期のクラスです。この考えは、実際には、「単語は、それに付随する人物によって知る必要がある」という格言に遡ります。 - 言語学者、ジョン・ルパート・ファース (1957 年)。このアルゴリズム ファミリは、2013 年にテキスト ドメインの word2vec で始まりました (参考)。word2vec の隣接単語から中心単語を予測する連続バッグオブワード (CBOW) の概念は、ELMo (参照) および BERT のマスク言語モデリング (MLM) (参照) に似ています。これらのモデルはすべて、非自己回帰生成手法として分類されます。主な違いは、最近のモデルでは双方向 LSTM (ELMo 用) や Transformer (BERT 用) などのより高度な構造が使用されているのに対し、最近のモデルではコンテキスト エンベディングが生成されることです。

音声の領域では、Mockingjay (ref) は連続特徴のすべての次元をマスクしますが、TERA (ref) は特徴次元の特定のサブセットをマスクします。画像分野では、OpenAI が BERT メカニズムを適用しました (参考)。グラフ ドメインでは、GPT-GNN は属性とエッジもマスクします (参照)。これらのメソッドはすべて、入力データの一部をマスクし、それらを逆予測しようとします。

一方、別の生成アプローチは、次のマーカー/ピクセル/音響特徴を予測することです。テキスト ドメインでは、GPT ファミリのモデル (ref および ref) がこのカテゴリの先駆者です。APC (参照) と ImageGPT (参照) は、それぞれ音声ドメインと画像ドメインに同じ考え方を適用します。興味深いことに、隣接する音響特徴は予測しやすいため、モデルは多くの場合、後のシーケンス (少なくとも 3 つのマーカーの外側) のマーカーを予測する必要があります。

自己教師あり学習 (特に BERT/GPT) の大成功により、研究者は同様の生成手法を画像や音声などの他の領域に適用するようになりました。ただし、画像および音声データの場合、無限数の画像ピクセル/音響特徴よりも有限数のテキスト トークンを選択する方が簡単であるため、マスクされた入力の生成はより困難になります。パフォーマンスの向上はテキスト フィールドほど良くありません。したがって、研究者らは次のセッションで他の多くの非生成手法も開発しました。

2.2 予測タスク

データの理解、クラスタリング、または拡張に基づいてラベルを設計します
a: コンテキストを予測します (例: 画像パッチの相対位置を予測し、次のセグメントが次の文であるかどうかを予測します) b
: クラスター内の各サンプルの ID を予測します
c: 予測します画像 回転角度

ここに画像の説明を挿入

主なアイデアは、データ生成を回避するために、より単純化されたターゲットを設計することです。最も重要かつ困難な点は、モデルが学習するためにタスクの難易度が適切なレベルである必要があることです。

たとえば、テキスト フィールドのコンテキストを予測する場合、BERT と ALBERT は両方とも、次のセグメントが次の文であるかどうかを予測します。BERT は、次のセグメントを別のセグメントとランダムに交換することによってネガティブ トレーニング サンプルを提供します (Next Sentence Prediction、NSP)。一方、ALBERT は、前後のセグメントを交換することによってネガティブ トレーニング サンプルを提供します (Sentence Order Prediction、SOP)。SOP は NSP よりも優れたパフォーマンスを発揮することが示されています (参照)。説明の 1 つは、ランダムな文のペアはトピック予測によって簡単に区別されるため、モデルは NSP タスクからあまり学習しないのに対し、SOP ではモデルが一貫した関係を学習できるということです。したがって、優れたタスクを設計し、タスクの効率を検証する実験を行うには、ドメインの知識が必要です。

SOP のようなコンテキストを予測するという考え方は、画像領域 (画像パッチ (ref) の相対位置を予測する) と音声領域 (2 セットの音響特徴 (ref) 間の時間間隔を予測する) にも適用されます。

別のアプローチは、クラスタリングによってラベルを生成することです。画像ドメインでは、DeepCluster は K-means クラスタリングを適用します (参照)。音声では、HuBERT は k-means クラスタリング (ref) を適用しますが、BEST-RQ はランダム射影量子化器 (ref) を使用します。

画像ドメインのその他のタスクは次のとおりです。画像のカラー チャネルからグレースケール チャネルを予測する (またはその逆; ref)、画像のランダム クロップを再構成する (つまり、修復; ref)、元の解像度で画像を再構成する (ref)、角度を回転し (ref)、画像の色を予測し (ref1、ref2、ref3)、ジグソーパズルを解きます (ref)。

2.3 対照学習

別名対照的なインスタンスの識別): 拡張によって作成された正の例と負の例のペアに基づいてバイナリ分類問題を設定する

対照学習の重要な概念は、データの理解に基づいて正と負のトレーニング サンプルのペアを生成することです。モデルは、2 つの陽性サンプルの類似性スコアが高く、2 つの陰性サンプルの類似性スコアが低いように関数を学習する必要があります。したがって、モデルがデータの基礎となる特徴や構造を確実に学習するには、適切なサンプル生成が重要です。

ここに画像の説明を挿入

2.3.1 画像ドメインの対照学習

画像ドメインの対照学習では、同じ元の画像から 2 つの異なるデータ拡張を適用してポジティブ ペアを生成し、2 つの異なる画像をネガティブ ペアとして使用します。

最も重要かつ困難な 2 つの部分は、拡張の強度とネガティブ サンプル ペアの選択です。拡張が強すぎて、同じサンプルの 2 つの拡張サンプル間に関係がない場合、モデルは学習できません。同様に、モデルが問題を簡単に解決できるほど拡張の量が少ない場合、モデルは下流のタスクに役立つ情報を学習できません。ネガティブ ペアの選択に関しては、2 つの画像をネガティブ ペアとしてランダムに割り当てると、それらは同じクラス (たとえば、2 つの猫の画像) になる可能性があり、モデルに矛盾するノイズが導入されます。負のペアが簡単に区別できる場合、モデルはデータの基礎となる特徴/構造を学習できません。対照学習の最も有名な例は、SimCLR (v1、v2) と MoCo (v1、v2) です。

2.3.2 オーディオ分野における対照学習

音声ドメインの場合、1 つのアプローチは、SimCLR (Speech SimCLR) のような拡張機能を適用することです。もう 1 つのアプローチは、隣接する特徴をポジティブ ペアとして使用し、異なるサンプルからの特徴をネガティブ ペアとして使用することです (CPC、Wav2vec (v1、v2.0)、VQ-wav2vec、Discret BERT など)。グラフ ドメインでは、DGI はブロック表現とグラフのグローバル表現の間の相互情報を最大化し、破損したグラフのブロック表現と元のグラフのグローバル表現の間の相互情報を最小化します。

興味深いことに、テキスト領域での自己教師あり学習による分類は概念的には対照学習と実際に似ているということがわかります。分類により、ポジティブ クラスの出力が最大化され、ネガティブ クラスの出力が最小化されます。同様に、対照学習では、正のペアの出力が最大化され、負のペアの出力が最小化されます。主な違いは、分類には有限数のネガティブ クラス (テキスト トークンの場合) があるのに対し、対照学習には無限数のネガティブ クラス (画像および音響特徴の場合) があることです。理論的には、少数のクラスが与えられた画像/音声分類器を設計できます。1 つのクラスは元のイメージであり、入力は強化されたイメージです。しかし、

2.4 ブートストラップ方式

2 つの類似しているが異なるネットワークを使用して、同じサンプルの拡張ペアから同じ表現を学習します。

ここに画像の説明を挿入
研究者らはさらに、トレーニングには計算コストがかかり、適切な負の例を選択するのは容易ではないため、負の例の使用を避けるためにブートストラップ法を開発しました。ブートストラップ法の重要なアイデアは、1) 同じ元のサンプルの 2 つの拡張から 1 対の陽性サンプルを生成する (対照学習と同様)、2) 1 つのネットワークをターゲット ネットワーク (教師ネットワークとも呼ばれます) として設定することです。 )、および他のネットワーク オンライン ネットワーク (学生ネットワークとも呼ばれます) として、そのアーキテクチャはターゲット ネットワークと同じですが、追加のフィードフォワード層 (予測子と呼ばれます) が追加されています。3) ターゲットの重みを修正します。 /教師ネットワークとオンライン/生徒ネットワークのみを更新します; 4) オンライン/生徒ネットワークの重みに従ってターゲット/教師ネットワークの重みを更新します。

最も重要な設計は、1) オンライン ネットワークには予測子 (追加レイヤー) が必要であること、2) オンライン ネットワークの重みのみを更新できること、そうでない場合はネットワークが崩壊すること (つまり、入力に関係なく同じ値を出力すること) です。

画像ドメインでは、BYOL はオンライン/生徒ネットワークの重みの指数移動平均 (EMA) によってターゲット/教師ネットワークの重み (参照) を更新しますが、SimSiam は単純に重み (参照) を複製します。

Meta の Data2vec は、画像、音声、テキスト フィールド用の統合フレームワークです (参照)。また、EMA がターゲット/教師ネットワークを更新する必要がありますが、マスキング予測タスクが使用されます。生データをターゲット/教師ネットワークに提供し、マスクされたデータをオンライン/生徒ネットワークに提供します。重要な設計は、その目標が、ターゲット/教師ネットワークの最初の数層のマスクされた入力領域/トークンの平均埋め込みを予測することであるということです。

2.5 正則化

仮定/直観に基づいて損失項と正則化項を追加します。
a: ポジティブ アラインメントは類似している必要があります
。 b: 出力は同じバッチ内の異なるサンプルで異なる必要があります。

ここに画像の説明を挿入

これは、正のペアのみを必要とし、負のペアを必要としない別のアプローチです。驚くべきことに、これらの方法は両方のネットワークに同じアーキテクチャを使用でき、トレーニング中に一方のネットワークのみを更新するための「勾配停止」メカニズムも必要ありません。追加の正則化項を追加しても、モデルは崩壊しません。目的関数の項には次のものが含まれます。

不変性: 損失項により、同じ正のペアの 2 つの埋め込みが可能な限り類似します。Barlow Twins と DeLoRes の不変項は、それぞれ画像フィールドと音声フィールドで相互相関行列の対角要素を 1 に等しくしようとします。画像フィールドでは、VICReg は 2 つの埋め込み間の平均二乗ユークリッド距離を最小化します (参照)。 。
分散: 正規化項により、同じバッチ内のサンプルは同じサンプルではないため、サンプルが十分に変化するように保たれます。Barlow Twins と DeLoRes の冗長性削減項は、画像フィールドと音声フィールドの相互相関行列の非対角要素をそれぞれゼロに等しくしようとします。画像領域では、VICReg の分散項はヒンジ損失を使用して、同じバッチ内のサンプルの埋め込み出力の標準偏差をしきい値 (基準) より上に保ちます。VICReg の共分散項は、共分散行列の非対角項のサイズを最小化し、埋め込みの各ペアの相関を取り除きます。この用語により、パフォーマンスが大幅に向上し、埋め込みベクトルのすべての次元の使用効率が最大化されます。ただし、これは情報の破損を防ぐために必要なわけではありません (参照)。
VICReg の論文は、VICReg が他の自己監視型フレームワーク (Barlow Twins および SimCLR) と比較して、さまざまなネットワーク アーキテクチャに対してより堅牢であることを示しています。したがって、将来のマルチモーダル アプリケーションが可能になります。

おすすめ

転載: blog.csdn.net/chumingqian/article/details/131351085