差出人: No Data Not Smart
現在、chatGPT に関する情報は散在しており、すべての知識ポイントとシステム概要を詳しく説明した記事はありません.そのため、著者はこの要約記事を作成しました.
トレーニング プロセスの概要
進化経路を明らかにする
事前訓練
GPT-3 の概要
GPT 3モデルの考え方
GPT-3 の学習方法
データセット
命令の微調整 (IFT)
監視付き微調整 (SFT)
ヒューマン フィードバック強化学習 (ヒューマン フィードバックからの強化学習、RLHF)
その他の方法
思考連鎖 (CoT)
chatGPTに似た仕事
引用
NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)
トレーニング プロセスの概要
OpenAI は、 175B のパラメーターを持つ大規模言語モデル(LM) と6B のパラメーターを持つ報酬モデル(RM) を使用します。事前トレーニングに加えて、トレーニング プロセスは次の 3 つのステップに分かれています。
NLP のさまざまなタスクのデータ セットを収集し、タスクの説明とプロンプトを追加して新しいデータ セットを組み立て、これらのデータを使用して事前トレーニング済みの大規模言語モデルを微調整します。命令の微調整と監視された微調整を含みます。
上記のデータセットからサンプルを抽出し、大規模な言語モデルを使用して複数の応答を生成し、これらの応答を手動でランク付けして、人間の好みに合うように報酬モデル (RM) をトレーニングします。
第 1 段階の教師あり微調整モデルと第 2 段階の報酬モデルに基づいて、強化学習アルゴリズムを使用して大規模な言語モデルをさらにトレーニングします。
進化経路を明らかにする
GPT-3.5のパラメータ数は175Bのままで、全体の進化ツリーは以下の通りです。
事前訓練
GPT-3 の概要
GPT-3 はデコーダーのみを使用する自己回帰モデルであり、トレーニングの目標も次の単語を予測することです (次の文を判断しないタスク)。
最大の GPT-3 モデルには 175B のパラメーターがあり、これは BERT モデル (0.375B) の 470 倍です。
GPT 3モデルの考え方
新しいモデル構造に接続する必要はありません。bert が NER タスクに使用される場合、通常は LSTM+CRF に接続されます。
微調整不要
1 つのモデルで複数の NLP タスクを解決
NLP タスクは生成モデルで解決できます
人間と同じように、ごく少数の例を見るだけで学習できます
GPT-3 の学習方法
ゼロショット学習: タスクの説明、ヒントを提供する
ワンショット学習: タスクの説明、例、ヒントを提供する
数ショット学習: タスクの説明、いくつかの例、ヒントを提供する
データセット
モデル | リリース時間 | パラメータ量 | 事前トレーニング データの量 |
---|---|---|---|
BERT-大 | 2019年3月 | 3億7500万 | 約3.3GB |
GPT | 2018年6月 | 1億1700万 | 約5GB |
GPT-2 | 2019年2月 | 15億 | 40GB |
GPT-3 | 2020年5月 | 1750億 | 45TB |
BERT-large:BooksCorpus 800M words、英語Wikipedia 2.5Bwords
GPT: 5 GB 以上のWebText2、BooksCorpus、Wikipedia。
GPT-2: WebText2、BooksCorpus、Wikipediaの合計容量が40GB に達しました。
GPT-3: **WebText2、BooksCorpus、Wikipedia、Common Crawl**、および 45 TB のデータを含むその他のデータ セット。
画像-20230221153905277
命令の微調整 (IFT)
さまざまな NLP タスクのデータセットを収集し、タスクの説明とヒントを追加して、新しいデータセットを組み立てます。chatGPT で使用されるデータ セットは次のとおりです。
いくつかの関連論文:
Unnatural Instructions (Honovich 等、'22): https://arxiv.org/abs/2212.09689
超自然的な指示 (王等、'22): https://arxiv.org/abs/2204.07705
Self-Instruct (王等、'22): https://arxiv.org/abs/2212.10560
T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207
自然の指示データセット (Mishra et al., '22): https://arxiv.org/abs/2104.08773
FLAN LM (魏ら、'22): https://arxiv.org/abs/2109.01652
OPT-IML (Iyer 等、'22): https://arxiv.org/abs/2212.12017
監視付き微調整 (SFT)
このステップは、デリケートなトピックに遭遇したときの [わからない] のような無意味な回答を防ぐものではなく、手動でラベル付けされたデータを追加して返信のセキュリティを強化するものであり、100 レベルのデータセットで完了することができます。
いくつかの関連論文:
Google の LaMDA: 付録 A https://arxiv.org/abs/2201.08239
Sparrow by DeepMind: Sparrow: 付録 F https://arxiv.org/abs/2209.14375
ヒューマン フィードバック強化学習 (ヒューマン フィードバックからの強化学習、RLHF)
説明:
ポリシー: プロンプトを受け取り、一連のテキスト (またはテキストの確率分布) を返す LM。
アクションスペース(アクションスペース):LMの語彙に対応するすべてのトークン(一般的に50kのオーダー)、
観測空間は可能な入力トークンのシーケンスであり、これも比較的大きい (語彙 ^ 入力トークンの数)。
報酬関数は、選好モデルとポリシー シフト制約の組み合わせです。
このプロセスは 2 段階のプロセスです。
Q&A データを集計し、報酬モデルをトレーニングします (報酬モデル、RM)
強化学習 (RL) による LM の微調整
オープンソース データセット:
Anthropic/hh-rlhf · Hugging Face のデータセット
OpenAI は、ユーザーから送信されたフィードバックを使用します。
その他の方法
このパートでは、chatGPT で使用される微調整に類似したいくつかの方法を簡単に紹介します。
思考連鎖 (CoT)
以下に示すように、段階的な推論でいくつかのデータセットを使用した微調整
オレンジ色はタスクの説明、ピンク色は質問と回答、青色は推論プロセスです。
Chain of Thought Tips (Wei et al., '22): https://arxiv.org/abs/2201.11903
chatGPTに似た仕事
メタの BlenderBot: https://arxiv.org/abs/2208.03188
Google の LaMDA: https://arxiv.org/abs/2201.08239
DeepMind によるスズメ: https://arxiv.org/abs/2209.14375
Anthropic 的アシスタント: https://arxiv.org/abs/2204.05862
引用
変圧器モデル: 紹介とカタログ
WebGPT: 人間のフィードバックによるブラウザ支援の質問応答
人間のフィードバックで指示に従うように言語モデルをトレーニングする
https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew
https://openai.com/blog/chatgpt/
https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ
https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug
https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w
https://zhuanlan.zhihu.com/p/595891945
https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/1810.04805.pdf
NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)
惑星に参加すると、次のものが得られます。
1. 3 ~ 5 個の最新の高品質の用紙速度測定値を毎日更新します
2. 最新の入門および上級学習教材
4. NLP、サーチ、昇進・昇格、CVなどのAI職の1日1~3件の募集情報