NeurIPS 2022|DeepMindの最新研究:大規模モデルの背後にあるICLはデータ分散と密接に関連している可能性

NeurIPS 2022|DeepMindの最新研究:大規模モデルの背後にあるICLはデータ分散と密接に関連している可能性

従来のテキスト言語モデルは2 段階のトレーニング モードになる傾向があります。つまり、まず規模なコーパスで事前トレーニングし、次にデータなどの多くの側面の影響を受ける下流のターゲット タスクで微調整します。注釈の品質過剰適合最近出現して人気のある大規模言語モデル (大規模言語モデル、LLM) は、このような問題を克服し、驚くべき ICL 機能 (インコンテキスト学習) を示します。明示的な下流タスクの微調整トレーニングを行わなくても、コンテキストに応じたいくつかの学習を実行できます。学習タスクをショットしますこの観察により、言語モデルの研究者は、トレーニング段階のどのような側面がこの文脈学習につながるのか?という疑問を抱くようになりました。

 

論文リンク:

https://arxiv.org/abs/2205.05055

コードリンク:

https://github.com/deepmind/emergent_in_context_learning

この記事では、NeurIPS 2022 (口頭) で公開された DeepMind の研究を紹介します。この研究では、ICL の内部メカニズムを調査しました著者チームは、データにバースト的なクラス分布(つまり、クラスの末尾にあるクラスの数) がある場合など、トレーニング データが特定の分布特性を示す場合、この現象は主にトレーニング データ自体の分布によって引き起こされることを示しています。分布が急激に増加)、I CL が表示されますまた、これらのサンプルのセマンティクスが固定されておらず、動的な変化を示す場合、ICL もより徹底的に実行されます従来の教師あり学習パラダイムでは、各サンプルには明確な意味属性があり、この方法は重みベースのモデル学習に重点を置いています。

この記事の著者は、ICL と従来の重み付け学習を有機的に組み合わせることができないか考えましたが、最初の実験では、モデルは両方を考慮できませんでした。次に、著者はデータ分布の観点から開始し、偏ったジフィアン分布 [1] (べき乗則分布)に従ってモデルをトレーニングすると、2 つの学習モードがトレードオフを達成できることを発見しました。さらに、非常に重要な発見は、この種の ICL は Transformer アーキテクチャでのみコンテキスト学習を実行でき従来の再帰モデルでは実行できないということです。これはまた、Transformer ベースのアーキテクチャが言語学習においてより有利であることを裏付けており、Transformer ベースのアーキテクチャとトレーニング データの配布との間の理論的関係をさらに研究できれば、「魔法の」ICL を促進する上でより効果的になるでしょう。

I.はじめに

ICL を使用すると、Transformer ベースの LLM が低コストのコンテキスト学習を実行できるようになります。これは、実際にはモデルの勾配更新を必要としない最適化プロセスです。これは、教師あり学習の標準モードとして、学習速度が遅い、データラベル付けに対する高い要件など、一定の制限がある従来の重み学習とはまったく対照的です。一方、ICL は、ダウンストリーム タスクを明示的に指定せずに、少数ショットの学習タスクを実行できます。この違いの原因は何でしょうか? 著者は最初に モデル アーキテクチャ の変更を考えました。たとえば、言語学習の分野では、Transformer モデルが従来の再帰モデルに徐々に置き換えられてきました。その背後にある理由は、Transformer アーキテクチャの方がより良いコンテキストを持っているためです。学習能力。

この新しいモデル アーキテクチャの変動要因に加えて、著者らは 2 番目の可能性を探ります。それは、コンテキストを学習するモデルの能力がトレーニング データの分布品質に依存するというものですしたがって、この論文では、著者はトレーニング データの分布を具体的に操作する実験を設計し、専門的な測定基準を使用して ICL の小サンプル学習への影響を測定します。著者は、評価用に小さなサンプル タスク ベンチマークを選択し、データ セットの元の分布を調整して、データ分布の変化が ICL の発生に直接つながるかどうかを観察します。実験結果は、テール カテゴリの数が突然増加し、サンプル セマンティクスが動的に変化すると、Transformer モデルが ICL の動作を示すことを示していますさらに著者は、モデルのアーキテクチャも ICL にとって非常に重要であることを強調しており、たとえば、LSTM や RNN などの古典的な再帰モデルは、同じパラメータスケールであっても、Transformer 構造のようなコンテキスト学習を実行することはできません。

2. 実験方法

2.1 トレーニングデータ

データレベルで小サンプルタスクにおけるモデルの ICL 機能を分析するために、著者は実験用に Omniglot データセット [2] を選択し、新しいトレーニングおよび評価リストを独自に作成しました。Omniglot データセットは、少数ショット学習専用の標準画像データセットで、国際アルファベットの 1623 の異なる文字クラスで構成され、各クラスには 20 の手書き例が含まれていますOmniglot データセットを使用すると、その後のモデルの専門的な小サンプル能力評価も容易になります。

特定のトレーニング データは、上の図に示すように、画像とラベル シーケンスで構成されます。各シーケンスの最初の 16 要素には「コンテキスト」が含まれており、8 つの画像とラベルのペアで構成されます (各画像は常に対応するラベルにバインドされています)。最後の要素はクエリ画像であり、モデルの学習目標はクエリの正しいラベルを正確に予測することです。

2.2 モデル設計

私たちの実験モデルの設計はシンプルかつ直観的で、入力シーケンスの各要素は最初に 2 つのエンコーダー (整数ラベルをエンコードするための標準埋め込み層と、画像をエンコードするための ResNet) を通過して埋め込みを生成します。これらの埋め込まれたトークンは、次の図に示すように、因果的な Transformer モデル [3] に供給されます。ここで、著者は 12 層と埋め込みベクトル サイズ 64 の Transformer 層を設定します。モデルは最後に、ソフトマックス クロスエントロピー損失関数を使用して入力画像の予測を最適化します。

 

 

2.3 評価データ

モデルのトレーニングが終了した後、作成者は標準の少数ショット学習設定に従い、モデルの少数ショット学習能力を評価するためのテスト データセットを構築します。コンテキストには、画像クラスごとに 4 つの例を持つ 2 つの異なる画像クラスのランダムな順序が含まれます。 , クエリは 2 つの画像クラスのいずれかからランダムに選択され、少数ショット学習では、この設定は「2-way 4-shot」問題と呼ばれますさらに、このときの評価順序はトレーニング段階での固定ラベルとは異なり、 2 つの画像カテゴリのラベルを再割り当てする必要があることに注意してください。つまり、1 つの画像カテゴリを 0 に割り当て、下の図に示すように、もう 1 つは 1 に割り当てられます。この設定に基づいて、クエリ画像のラベルを正確に予測し、モデルの真の ICL 機能をテストできるようにするために、モデルは現在の設定のコンテキストを理解できなければなりません。

 

ただし、この設計にも欠陥があり、ICL 能力検査には 0 と 1 の 2 つのカテゴリーしか設定されておらず、モデルが正しく予測する確率は 1/2 であり、ランダムに予測が外れてしまう場合があります。ターゲットに当たるだけです

 

ICL によるモデルのテストに加えて、著者らは重み学習の評価シーケンスも設計しました。重み学習の制限により、上の図に示すように、評価シーケンスのサンプル ラベルはトレーニングに使用されるラベルと同じになります。したがって、モデルがラベルを正しく予測する唯一の方法は、モデルの重みに格納されている情報に依存することです。この設定では、モデルの予測が正しい確率は通常 1600 分の 1 です。

3. 実験結果の分析

実験結果の分析を通じて、著者は上記で提起されたいくつかの疑問に答えました。それについては以下で詳しく紹介します。

3.1 ICL を促進できるトレーニング データにはどのようなものがありますか?

ICL でのトレーニング データの分布に影響を与える要因には、主に4 つの側面が含まれます。サンプルのバースト性、末尾クラスの数の増加、ラベルの多様性、および明らかなクラス内差異です。

3.1.1 サンプルのバースト性

著者らは、最初の実験で、トレーニング データ内のバースト性シーケンスと非バースト シーケンスの比率を変えることによって、トレーニング データのバースト性のレベルを変化させました。実験により、下の図 (a) に示すように、Transformer 構造はこのデータ分布で ICL の小サンプル学習を実行できることがわかりました。また、この場合、ICL と重みの間には一定のトレードオフが存在します。以下の図 (b) に示すようにデータ バーストの程度が大きくなると、重み学習の割合が減少します。特殊なケースでは、モデルは徐々に ICL を放棄し、完全に重み学習に切り替わる場合があります。

3.1.2 末尾カテゴリ数の増加

この論文の 2 番目の実験セットは、ICL のパフォーマンスがトレーニング クラスの数に依存することを示しています。トレーニング クラスの数が 100 から 1600 に増加すると、下の図 (a) に示すように、ICL のパフォーマンスは徐々に向上します。一方、重み学習のパフォーマンスは、以下の図 (b) に示すように下降傾向を示します。これは、ロングテール分布問題の仮定と一致しています。元の Omniglot データセットで利用可能な 1623 カテゴリの数をさらに増やすために、作成者は元のデータセットを回転 (0°、90°、180°、270°) および反転 (左右) してカテゴリの数を増やしました。 12800. 操作により ICL がさらに改善され、重み学習が弱められます。

3.1.3 ラベルの多様性

著者らは、3 番目の実験セットでデータ内の意味論的ダイナミクスの影響を調査しました。この実験では、トレーニング分布内の画像には完全に固定されたラベルがなく、各画像カテゴリが複数の可能なラベルに割り当てられていますクラスが同じシーケンス内で複数回出現する場合、シーケンス内のすべてのサンプルのラベルは一貫している必要があります (これは、言語データ分布などの自然データでも一般的です)。以下の図では、著者は ICL に対する「ラベルの多様性」の増加によるプラスの効果を示しています。

3.1.4 クラス内の差異

4 番目の実験セットでは、動的セマンティック変更の別の方法、つまり画像クラス自体の違いを調査します。視差が最も低い場合、各画像クラスには 1 つの画像のみが含まれます。つまり、特定のクラスの画像は常に同じです。中程度の変動の場合、著者らは、サンプルのリサンプリングと同等のガウス ピクセル ノイズを各クラスの画像に追加しました。一方、変動性が高い場合、著者は完全な Omniglot カテゴリを使用します (各カテゴリは 20 の異なる手書きの 20 の異なる画像で構成されます)著者らは、これら 3 種類の差異について ICL 実験を実施することにより、以下の図に示すように、クラス内差異が大きいほど ICL がより顕著になることを発見しました。

3.2 ICL と重み学習を同じモデル内で共存させることができるトレーニング データの種類は何ですか?

モデルの総合能力の観点から見ると、ICL と重み学習にはそれぞれ利点があり、両者を比較検討し、両方の機能を備えたモデルになれば、モデルの競争力は大幅に向上します。一方では、モデルはトレーニング段階で現れたカテゴリ情報をしっかりと記憶することができ、他方では、突然変異サンプルを含む新しいクラスに直面したときに高速 ICL を実行できますこれら 2 つの機能は、まさに現在の大規模言語モデルが期待しているものです。

では、どうすればこれができるのでしょうか? 著者はこれまでのすべての実装を分析した結果、トレーニング データがカテゴリに応じて均一に分散されていると重み学習が最適化されないことがわかり、偏ったトレーニング分布を調整できるのではないかと推測しています。モデルには 2 種類の学習が実装されていますこの調整により、データ セット内の一部のカテゴリはより頻繁に出現しますが、ほとんどのカテゴリはより頻繁に出現しません。この分布は、いくつかの自然現象にも準拠します。たとえば、単語の分布は、基本的にこの分布に準拠します。形式も次のように定義されます。 Zipfian (べき乗則) 分布:

3.3 モデルのアーキテクチャも非常に重要

著者らはまた、データ分散が ICL 推進の唯一の決定要因ではなく、モデル アーキテクチャの選択も同様に重要であることを強調しています。著者らは、リカレント ニューラル ネットワークのファミリーを使用して同様の実験を実行しました。Transformer を単純なリカレント ネットワークに置き換え、以前の実験と同じトレーニング シーケンスを使用し、同じ画像エンコーダーとテキスト エンコーダーを使用し、包括的なハイパーパラメータ検索を実行しましたしかし、残念ながら、これらの実験では、以下の図に示すように、再帰的モデルでは ICL をまったく達成できないことが著者らによってわかりました。このうち、(a)はTransformerの結果、(b)はRNN、(c)はLSTMの結果です。

4. まとめ

この論文はICL のメカニズムを探求するもので、他の著作とは異なり、著者はデータ分布を研究の出発点としており、理論的にも多くの発見を得ています。実験により、データに含まれる意味上の変更や差異が多ければ多いほど、ICL がよりスムーズになることが証明されています。著者はまた、ICL と従来の重み学習との関係をさらに研究し、モデルが両方の学習モードの利点を同時に享受できるようにするための妥協的な解決策を提案しています。さらに、著者はICL におけるモデル アーキテクチャの決定的な役割を強調し、Transformer に基づくアーキテクチャ設計は ICL の最適化環境に自然に適合し、これが従来の再帰モデルと比較した Transformer の利点でもあると述べています。また、ICLの開発はコミュニティにさらに広範な影響を与える可能性があり、例えば、言語理解以外の方向でICLを実現するために、データレベルから新しい分野のデータセットを設計・収集することも可能であると著者は考えています。画像分野と同様に、高速コンテキスト学習機能を備えた ICL ビジョン モデルも設計します。

参考

[1] ジョージ・キングスリー・ジップ。人間の行動と最小努力の原則 - Google ブックス、1949 年。

[2] ブレンデン・M・レイク、ルスラン・サラキットノフ、ジョシュア・B・テネンバウム。オムニグロットの挑戦: 3 年間の進捗レポート。arXiv:1902.03477 [cs]、2019 年 2 月。URL http://arxiv.org/abs/ 1902.03477。arXiv: 1902.03477。

[3] アシシュ・ヴァスワニ、ノーム・シェイザー、ニッキー・パーマー、ジェイコブ・ウスコレイト、リオン・ジョーンズ、エイダン・N・ゴメス、ルカシュ・カイザー、イリア・ポロスキン。必要なのは注意力だけです。11ページ、

作者:seven_Illustration by IconScout Store from IconScout

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/131309141
おすすめ