目次
GPT
教師なしの事前トレーニング + 教師ありの微調整で構成されます
-
教師なし事前トレーニング
-
監督された微調整
-
モデルを下流のタスクに適用する方法は?
Transformer 出力レイヤーの後に線形レイヤーを追加することを実践します。
-
試験結果
GPT-2
论文:言語モデルは教師なしマルチタスク学習者
注: タイトルのマルチタスク学習とは、NLP で複数のタスクを同時に学習するモデルを指します。
-
まとめ
WebText を使用すると、何百万ものテキストがあり、最大の GPT-2 モデルには 15 億のパラメーターがあります。
この記事の主なセールス ポイントはゼロ ショットです。
-
序章
以前の主流のタスクは、1 つのタスクでデータ セットを収集し、それをトレーニングすることでした。これは、現在のモデルの一般化があまり良くないためです。Bert と GPT が提案された後、主流は大規模なデータ セットで事前トレーニングを行い、サブタスクを微調整することです。これにはまだ 2 つの問題があります。
- サブタスクでモデルを再トレーニングする必要があります
- サブタスク用にデータ セットを収集する必要があるため、モデルが新しいタスクに拡張されると、比較的大きなオーバーヘッドが発生します。
GPT-2 はまだ言語モデルですが、ダウンストリーム タスクに拡張されると、ゼロ ショット設定が行われ、モデルを再トレーニングする必要がなくなります。
-
アプローチ
GPT では、微調整中に開始記号やスペーサーなどの特別な記号が導入されますが、これはモデルが事前トレーニング中に見られなかったものです (微調整中に学習されます)。GPT-2 がやらなければならないことはゼロショットです. ダウンストリーム タスクを実行するときにモデルを微調整できないため、これらの特殊記号を導入することはできません. 、前と同様。
これはプロンプト (McCann et al 2018 によって提案された) を導入し、いくつかの自然言語を使用していくつかのシンボルとして機能します。
- たとえば、翻訳タスクはシーケンスとして記述できます: フランス語、英語のテキスト、フランス語のテキストに翻訳します。明らかな開始、分離、および通常の自然言語の両方があります。
- たとえば、読解タスクは次のように書くことができます: 質問に答える、ドキュメント、質問、回答。同じ理由です
これが機能する理由 (おそらく):
- モデルは、プロンプトを理解するのに十分強力です
- テキストでは、そのような言葉も非常に一般的かもしれません
-
データセットとモデル
データ: Common Crawl は、誰もがダウンロードできるように Web ページをクロールする Web クロール プロジェクトです。ただし、信号対雑音比は低く、一部の Web ページはスパム Web ページである可能性があります。そこで、最終的に Reddit (フィルタリングされたいくつかの Web ページ) を使用し、最終的に 4,500 万のリンクを取得し、最終的なデータ セットには 800w テキスト、40GB が含まれています。
データ量が多いため、より大きなモデルを設計できます。計4体がデザインされた。
-
試験結果
他のゼロショット方式に比べ、性能が向上
NLP の一部のタスクでは悪くありませんが、一部のタスクではあまり良くありません。ただし、モデルのサイズが大きくなるにつれて、パフォーマンスは依然として上昇傾向にあります。
GPT-3
论文:言語モデルは少数派の学習者
-
コアポイント
- 少数ショットの使用
- 少数ショットは少数のラベル付きサンプルを提供しますが、GPT-3 は事前トレーニング後に勾配の更新や微調整を行いません。
-
用語集
- meta-learning, meta-learning: 著者の名前はあまり正確ではなく、著者は大まかなモデルをトレーニングすることを意味し、一般化のパフォーマンスは悪くありません
- インコンテキスト学習、コンテキスト学習: 推論中に、ラベル付きのサンプルがいくつか与えられたとしても、モデルの重みは更新または微調整されません。
-
数ショット練習図
図の矢印はプロンプト (prompt)と呼ばれ、出力する時間になったことをモデルに伝えます。
-
データセット
Common Crawl のデータ セットは大きいが、ほとんどの記事は品質が低いため、処理する必要がある
1. バイナリ分類モデル (ロジスティック回帰) をトレーニングします。正の例として redit データ セットが使用され、負の例として Crawl データ セットが使用されます。分類器をトレーニングした後、Common Crawl データ セットで予測を行います。予測が正の場合は保持され、予測が負の場合は除外されます。
2. 重複排除、lsh アルゴリズムを使用して 2 つの記事 (2 つのコレクション) の類似性を判断し、類似性の高いものを削除します
3.BERT、GPT、およびGPT-2で使用されるすべてのデータセットなど、既知の高品質のデータセットを追加します
Common Crawl データ セットには多くのトークンがありますが、そのうちの 60% のみがトレーニング プロセスで使用されていることがわかります。つまり、トレーニング中に各データ セットが均等に扱われていないことがわかります。
InstructGPT
论文:人間のフィードバックで指示に従うように言語モデルをトレーニング, 2022.03
トレーニングは主に2つのコア技術ポイントです
1.チューニングを指示する
2.人工フィードバックに基づく強化学習(RLHF)
チャットGPT
ブログのみで公式論文はなく、公式はInstructGPTとの兄弟モデルとのこと
- 訓練
基本的に3段階(具体的には4段階)に分けられる
事前トレーニングの大きな役割:
複数の言語で事前トレーニングした後、特定のタスクを特定の言語で教えれば、大規模なモデルは同じタスクを他の言語で自動的に学習します
4 つの詳細な手順
1.事前トレーニング、ワードソリティアを学ぶ
推論中、各出力は異なるため、GPT の直接出力は確率分布であり、次に確率分布からサンプルが取得されます.確率の高い単語はサンプリングされやすくなりますが、確率が最も高い単語は毎回サンプリングされません.出力として取得されます。
2.人間の先生がWord Solitaireの方向性を導きます
網羅的である必要はありません, つまり, 人間の理解に沿ったあまりにも多くの文にラベルを付ける必要はありません. 各質問にいくつかの正しい例を提供するだけで十分です.ステージは実際にこれらを部分的に学習しました。
3. 人間の教師の好みを模倣する
ChrtGPT の API は以前に公開されており、openAI は多くの人間の質問を収集します。ChatGPT はランダムであるため、同じ質問が複数の回答を出力し、人間を雇って各質問に対して異なる回答を採点します (人間の教師は正しい回答を提供する必要はありません)。 、ただ得点する必要があります)
次に、教師モデルをトレーニングして、各質問に対する各回答を自動的にスコアリングし、教師モデルが人間の好みを模倣できるようにします
4. 強化学習RLによる教師の模倣からの学習
chatGPT の質問と回答を教師モデルに入力し、教師モデルが出力したスコアを強化学習の報酬として使用し、chatGPT のパラメーターを調整して、教師モデルが最大の報酬を得られるようにします。
モデルのサイズとトレーニング セットの概要
モデル | 発売日 | モデル パラメータ サイズ | トレーニングセットサイズ |
---|---|---|---|
GPT | 2018年。 | 117M (0.117B) | 1GB |
GPT-2 | 2019年 | 1.5B (1542M) | 40GB |
GPT-3 | 2020年 | 175B | 570GB |
InstructGPT | 2022.03 | ||
チャットPT | 2022年 | ||
GPT-4 | |||