[NLP 古典論文の集中読解] 言語モデルは少数回の学習者である

序文

GPT-3 の技術報告書は、大型模型の時代の扉を開いたものだと私は思っています GPT-3 の性能は現在の大型模型とは比べものになりませんが、当時は万能の将軍であると思われていました-目的モデルは現実世界で一定の役割を果たしており、多くの従業員を興奮させています。いわゆる 0 から 1 への移行は、1 から 100 への移行よりも困難です。これが真実です。GPT がない場合-3作目、大型モデルの時代はまだまだ先かも知れません。


論文: https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
コード: https://github.com/openai/gpt-3

概要

最近の研究では、事前にトレーニングされ、微調整されたパラダイムが多くの NLP タスクで優れた結果を達成できることが示されています。ただし、微調整のプロセスには依然として数千のデータが必要であるため、この論文では、モデルの規模を拡大することで、モデルの小サンプル能力が大幅に向上できることを示しています。具体的には、著者は 1,750 億個のパラメータを備えた大規模モデル GPT-3 を設計しました。これは、パラメータを変更せずに特定のドメイン タスクを処理できます。GPT-3 は多くのタスクで優れた少数ショット パフォーマンスを示しており、人間には区別できない記事を生成することもできます。

1. はじめに

近年、NLP 分野では事前トレーニングの傾向が見られ、Transformer の登場により特定のタスク アーキテクチャの必要性がなくなりました。ただし、このアプローチには微調整用のタスク固有のデータセットが必要であり、この制限を取り除く必要があります。

  1. 各タスクには大量のラベル付きデータが必要となるため、言語モデルの適用性が制限され、ラベル付けのコストも高くなります。
  2. モデルが大きすぎて、狭いタスクに合わせて微調整されているため、汎化パフォーマンスが低下します。
  3. 人間はさまざまな言語タスクを学習するために大量の教師付きデータを必要とせず、多くのタスク間をシームレスに切り替えることができます。

潜在的な解決策はメタ学習です。これは、トレーニング中に幅広いスキルとパターン認識機能を開発し、推論中にこれらの機能を活用して、下流のタスクに迅速に一般化します。「コンテキスト学習」としても知られるこの方法は、自然言語の命令といくつかの例を通じてモデルが結果を生成するように導きます。しかし、実験部分は満足のいくものではなく、さらなる改善が必要です。
画像.png
近年、言語モデルのサイズを拡大することで、その増加ごとに下流のタスクが改善されることが判明しており、同様の利点が文脈学習でも発生する可能性があると著者は分析しています。
したがって、この論文では、1,750 億個のパラメータを持つモデル GPT-3 を設計し、20 以上の NLP タスクでモデルを評価します。各タスクには 3 つのシナリオが設定されています。

  1. 小規模なサンプル学習。デモの数は 10 ~ 100 に制限します。
  2. ワンショット学習。デモ サンプルは 1 つだけ適用されます。
  3. ゼロショット学習。デモ サンプルは追加されず、自然言語による説明のみが提供されます。

画像.png
上の図は、自然言語記述とコンテキスト例を追加することによってモデルのパフォーマンスが向上し、モデル サイズが大きくなるにつれて少数ショット学習も大幅に向上することを示しています。これらの曲線にはモデル パラメーターの更新が含まれていないことに注意してください。
一般に、GPT-3 はゼロショット設定とワンショット設定の両方で良好な結果を達成し、スモールショット設定では一部のタスクについては最先端のものを上回っています。GPT-3 は人間の学習者と同様の少数ショット学習機能も示し、著者らは、少数ショット設定では GPT-3 が人間には認識しにくい記事を生成できることを示しています。
GPT-3 は、一部の推論タスクや読解タスクでは、小さなサンプル設定でも困難を伴います。次の図は、さまざまなタスクに対する GPT-3 の結果を示しています。著者はデータ汚染に関する研究も行っています。つまり、テスト セットは、
画像.png
トレーニングの集中力が低下し、データ漏洩が発生する可能性があります。著者らは、データ汚染が GPT-3 のパフォーマンスにほとんど影響を及ぼさない一方で、一部のデータセットが依然として結果を誇張していることを発見しました。
さらに、著者は GPT-3 のパフォーマンスと比較するために、一連のより小さなモデル (1 億 2,500 万から 130 億) をトレーニングしました。全体として、モデルのパフォーマンスはモデルのサイズが大きくなるにつれて順調に向上しており、著者らは 3 つの設定におけるモデル間のギャップがモデルのサイズに応じて増大することを発見し、より大きなモデルの方がより優れたメタ学習器であることを示唆しています。

2.アプローチ

モデルと手法は引き続き GPT-2 を使用しますが、モデルの規模は拡大されています。この論文の中心は、文脈学習におけるさまざまな設定を体系的に調査することです。

  • 微調整。効果は良好ですが、多数の教師付きデータセットに依存しており、一般化能力が不十分です。
  • 小さなサンプル。タスク固有の監視データへの依存が大幅に軽減され、パフォーマンスは微調整よりもはるかに悪くなります (私たちのモデルを除く)。
  • ワンショット。デモの小さなサンプルのみが許可されています。
  • サンプルはゼロです。デモンストレーションとは無関係に、タスクを説明する自然言語命令のみを使用するのは、最も困難な設定です。

画像.png
この記事では、パフォーマンスが SOTA を超える可能性があるため、後者の 3 つの設定、特に小規模サンプル シナリオに焦点を当てます。もちろん、ゼロ サンプルとワンショット設定は、人間のパフォーマンスと最も公平に比較​​できます。

2.1 モデルとアーキテクチャ

このモデルは GPT-2 と同じアーキテクチャと方式を採用していますが、異なる点は、Transformer でスパース Transformer と同様のメカニズムが使用されていることです。これまでの研究では、十分なトレーニング データがあれば、モデルが大きくなるにつれて検証損失が滑らかなべき乗則変化を示すことが示されています。画像.png
上の表は、スケールの異なる 8 つのモデルを示しています。著者はモデルの多次元セグメンテーションを通じてマルチ GPU トレーニングを実現します。

2.2 トレーニング データセット

Common Crawl データセットには T レベルのトークンが含まれており、このペーパーのモデルをトレーニングするにはこれで十分ですが、データ品質をさらに改善する必要があります。

  1. まず、高品質データの類似性に応じて 1 回目のフィルタリングが実行されます。
  2. データの冗長性を防ぐために、ドキュメントレベルのあいまい重複排除を実行します。
  3. 高品質のコーパスをトレーニング ミックスに追加して、データセットの多様性を強化します。

画像.png
上の表は最終的なトレーニング データ セットの構成です。トレーニング期間中、データ セットはサイズ比率に従ってサンプリングされるのではなく、セット比率に従ってサンプリングされます。目的は、トレーニング データ セットの品質を向上させることです。
言語モデルの事前トレーニングに関する問題の 1 つは、テスト セットのデータがトレーニング セットに表示され、知識漏洩が発生し、下流のタスクが汚染される可能性があることです。著者らは重複するデータを排除しようとしていますが、データ漏洩の問題は依然として存在しており、さらなる調査が必要です。

2.3 トレーニングプロセス

通常、モデルが大規模になると、バッチ サイズが大きくなり、学習率が小さくなります。著者らはトレーニング中に勾配対ノイズ比を測定し、この比に基づいてバッチ サイズを選択します。表 2.1 は、さまざまなモデルのバッチ サイズと学習率の選択を示しています。

2.4 評価

下流タスクごとに、トレーニング セットからKK をサンプリングします。K個のサンプルが条件として使用され、プロンプトは「Answer」または「A」を使用します。バイナリ分類の場合、トレーニング中に 0 と 1 が現れる確率は「True」と「False」ほど高くないため、答えは 0 と 1 ではなく「True」または「False」になります。質問応答タスクでは、ビーム検索を使用して、F1 類似性スコア、BLEU、または完全一致を使用してモデルを評価します。

3. 結果

画像.png
上図は8つのモデルの学習曲線を示しており、各モデルの性能はべき乗則、つまり計算量が指数関数的に増加するにつれて損失が直線的に減少することがわかります。

3.1 言語モデリング、Cloze、および完了タスク

画像.png
上の図に示すように、クローズタスクと完了タスクでは、GPT-3 はゼロショットフィールドでの SOTA を大幅に向上させ、数ショット設定でのパフォーマンスは人間のパフォーマンスに近づきました。
画像.png
自由質疑応答タスクの結果は上の表に示されており、3 つのシーン設定での T5 モデルの微調整の結果よりも GPT-3 の方が高いことがわかります。

3.2 クローズドブックの質問への回答

大規模な言語モデルは、補助情報なしで質問に直接答えることができます (つまり、情報の検索は必要ありません)。結果は以下の図に示されています。
画像.png
GPT-3 のパフォーマンスはモデル サイズに応じて着実に増加しています。これは、言語モデルが容量の増加に伴って知識を吸収し続けていることを示しています。サンプル数が少ない設定は、最先端の微調整を超えています。

3.3 翻訳

GPT-3 は、GPT-2 に基づいてトレーニング データセットの範囲を拡張し、他の言語のより多くの表現を含めます。
画像.png
すべてのデータセットは、モデル サイズが増加するにつれて一貫した改善傾向を示しており、その傾向は英語翻訳よりも英語翻訳の方が強いです。

著者は、第 3 章で、さまざまなタスクで実験を行うことにより、NLP のさまざまな分野における GPT-3 のパフォーマンスを検証するために多くの作業を行いました。スペースの制限のため、ここでは結果を 1 つずつ示すことはせず、いくつかの実験のみを例として取り上げます。一般に、これら 3 つの設定の下では、小さなサンプルのパフォーマンスが間違いなく最高であり、一部のデータではセット上で微調整できるSOTAをも上回っていますが、それでも人間のパフォーマンスとの差はあります。

4. ベンチマークの測定と暗記の防止

著者のタスク データ汚染の問題は、モデルの能力が学習されるか模倣されるかに関係するため、大規模モデルのトレーニングでは特に重要です。関連する研究が GPT-2 で行われ、トレーニングとテストの間で重複するデータではモデルのパフォーマンスが向上しましたが、汚染されたデータの割合が小さかったため、報告された結果に大きな影響を与えなかったことがわかりました。ただし、GPT-3の動作メカニズムは若干異なり、まずデータ規模が桁違いであり、使用されるCommon Crawlデータセットの品質も良くないため、汚染の可能性が高くなります。一方で、データ量が多いため、モデルの過適合が起こりにくく(下図参照)、コンタミネーションが頻繁に発生する可能性があります。
画像.png
重複を積極的に検索するにはコストがかかるため、著者らは代わりに、これらの重複が結果にどのような影響を与えるかを調査しています。各ベンチマーク データセットについて、作成者はこれらのデータセットをクリーンアップして評価し、元のスコアと比較します。結果は次のとおりです。
画像.png
潜在的な汚染は高くなりますが、結果として生じるパフォーマンスの変化は無視できます。これには 2 つの理由が考えられます。1 つは、著者が汚染の割合を大幅に過大評価したこと、もう 1 つは汚染がパフォーマンスにほとんど影響を与えないことです。

5. 制限事項

GPT-3 にはまだ多くの制限があります。

  1. テキスト生成には、意味の繰り返しや不一致などの欠陥がまだあります。
  2. 構造とアルゴリズムに制限があり、自己回帰アーキテクチャには他の事前学習ターゲットが含まれていないため、クロージングや読解などのタスクは BERT ほど優れていません。
  3. トレーニング前の目標による制限を受けやすい。つまり、トークン自体に「焦点を当て」ず、多様な知識を欠如せずに、任意のトークンに同じ重みを割り当てます。
  4. 事前トレーニングのサンプル効率は低いです。人間に近い学習効率は達成できません。
  5. 小規模なサンプル シナリオでは、モデルがタスクを再学習するのか、それとも事前トレーニング中に学習した知識を単に認識するのかを知ることは不可能です。
  6. GPT-3は高価で推論に不便で実用性に欠けるため、知識を蒸留する手法が考えられる。
  7. 説明不足。どの重みが生成プロセスで決定的な役割を果たすかを含めます。

6. より広範な影響

言語モデルは強力であり、社会に影響を与えることは避けられません。この章では、問題が発生する前に問題を防ぐために、言語モデルの潜在的な害に焦点を当てます。

6.1 言語モデルの悪用

言語モデルは、スパム、フィッシング情報、フェイクニュースなどを生成するなど、悪意を持って簡単に使用されます。生成されるテキストの品質が高いため、人間がそれらを区別するのは困難です。さらに、言語モデルは悪意のある組織の閾値を下げるため、悪意のある攻撃のリスクが高まり、言語モデルが利益のために悪用される可能性があります。

6.2 公平性、偏り、および表現

トレーニング データにバイアスがあると、モデルがステレオタイプのコンテンツや偏ったコンテンツを生成する可能性があります。これは、現実に存在する固定観念やその他の潜在的な害を強化します。これらの偏見には、性別、人種、宗教などが含まれます。
たとえば、性別に関して、著者は 388 の職業をテストし、83% の職業が GPT-3 によって男性としてマークされる可能性が高いことを発見しました。
画像.png
上の表は男性と女性の言葉をまとめたものですが、女性の方が「美しい」と表現されることが多く、褒め言葉ではありますが、ある意味偏見でもあります。
画像.png
人種に対する偏見はさらに明白で、さまざまなサイズのモデルの下では、黒人はほぼ常に否定的に評価され、アジア人は肯定的に評価されていることがわかります。
画像.png
宗教ごとに異なる偏見もあります。上の表によると、イスラム教会には暴力、テロリズム、その他の関連用語が含まれていることがわかります。
したがって、将来の作業では、逸脱を軽減するために関連する語彙と設計基準を確立する必要があります。

6.3 エネルギー使用量

大規模な言語モデルのトレーニングには多くの計算が必要となるため、コストと効率の間で妥協する必要があります。たとえば、知識の蒸留を使用してコストを削減できます。

7. 関連作品

少し。

8. 結論

この論文では、1,750 億個のパラメーターを備えた言語モデルを提案します。これは、ゼロサンプル、1 サンプル、少数サンプルの設定で複数の NLP タスクで優れたパフォーマンスを示します。さらに、著者らはそのようなモデルの社会的影響について議論しており、その多くの制限や欠陥にもかかわらず、複数の結果は大規模な言語モデルが汎用言語システムの重要な部分であることを示しています。

概要を読む

75 ページの技術レポートですが、ほとんどの作業と重点は実験部分に置かれており、メソッド部分はついでに言及されているだけで、GPT-2 関連の読書経験がないと焦点を理解するのが困難です。 GPT-3の働き。GPT-2 のゼロサンプル設定とは異なり、GPT-3 は小サンプル設定に注目しました。GPT-2 は非常に斬新で一般的な問題シナリオを提案しましたが、その効果は満足のいくものではなかったためです。 2 自然言語を使用して勾配を更新せずに出力を調整する方法は、小規模なサンプル設定の下で一部の分野では SOTA の微調整を超えており、大規模な言語モデルが一般的な言語システムの重要な部分であることが証明されています。
一般に、この作品全体の核心は 2 か所にあり、1 つ目はデータセットの構築と選択、2 つ目はモデルの構築ですが、これらには革新的な内容はなく、著者は多くのことを費やしています。実験部分での経験の積み重ねにより、いわゆる「奇跡」が精力的に行われ、多数の実験解析を通じて、モデルの性能がより包括的に実証され、GPT-2 のいくつかのアイデアの合理性も検証されました。ある程度までは大型モデルの時代への扉が開かれました。
ライターにとって最大の利益は、より包括的に実験を計画する方法と、実験を通じて自分自身を正当化する方法を学ぶことにあります。いわゆる実践により、真の知識がもたらされます。完全な記事には、素晴らしいストーリーがあるだけでなく、説得力のある実験結果も含まれます。
最後に、GPT-3 には 1,750 億個のパラメーターがあり、個人や小規模なチームですら時間と計算能力の点で消化することができないため、パラメーターの有効性の学習と知識の蒸留が現在行われています。

おすすめ

転載: blog.csdn.net/HERODING23/article/details/132078698