chatGPTの原理が分かりやすい

差出人: No Data Not Smart

現在、chatGPT に関する情報は散在しており、すべての知識ポイントとシステム概要を詳しく説明した記事はありません.そのため、著者はこの要約記事を作成しました.

  • トレーニング プロセスの概要

  • 進化経路を明らかにする

  • 事前訓練

    • GPT-3 の概要

    • GPT 3モデルの考え方

    • GPT-3 の学習方法

    • データセット

  • 命令の微調整 (IFT)

  • 監視付き微調整 (SFT)

  • ヒューマン フィードバック強化学習 (ヒューマン フィードバックからの強化学習、RLHF)

  • その他の方法

    • 思考連鎖 (CoT)

  • chatGPTに似た仕事

  • 引用

NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

トレーニング プロセスの概要

OpenAI は、 175B のパラメーターを持つ大規模言語モデル(LM) と6B のパラメーターを持つ報酬モデル(RM) を使用します。事前トレーニングに加えて、トレーニング プロセスは次の 3 つのステップに分かれています。

  1. NLP のさまざまなタスクのデータ セットを収集し、タスクの説明とプロンプトを追加して新しいデータ セットを組み立て、これらのデータを使用して事前トレーニング済みの大規模言語モデルを微調整します。命令の微調整監視された微調整を含みます

  2. 上記のデータセットからサンプルを抽出し、大規模な言語モデルを使用して複数の応答を生成し、これらの応答を手動でランク付けして、人間の好みに合うように報酬モデル (RM) をトレーニングします。

  3. 第 1 段階の教師あり微調整モデルと第 2 段階の報酬モデルに基づいて、強化学習アルゴリズムを使用して大規模な言語モデルをさらにトレーニングします。

outside_default.png
画像

進化経路を明らかにする

GPT-3.5のパラメータ数は175Bのままで、全体の進化ツリーは以下の通りです。

15bc3b7076a9d34079a4c09932a0cb0a.png
画像
3c0ff2e36227961fd235036dd3ddb4a6.png
画像

事前訓練

GPT-3 の概要

30c5b2b87f7fc41a3b4f3a978edb8505.jpeg 60ad4cd821f655d8fadb09ab955076e3.png
  • GPT-3 はデコーダーのみを使用する自己回帰モデルであり、トレーニングの目標も次の単語を予測することです (次の文を判断しないタスク)。

  • 最大の GPT-3 モデルには 175B のパラメーターがあり、これは BERT モデル (0.375B) の 470 倍です。

00d87486b5b2181c087b8efb6c5dbd3e.png
画像-20230221144754842

GPT 3モデルの考え方

  • 新しいモデル構造に接続する必要はありません。bert が NER タスクに使用される場合、通常は LSTM+CRF に接続されます。

  • 微調整不要

  • 1 つのモデルで複数の NLP タスクを解決

  • NLP タスクは生成モデルで解決できます

  • 人間と同じように、ごく少数の例を見るだけで学習できます

GPT-3 の学習方法

  • ゼロショット学習: タスクの説明、ヒントを提供する

  • ワンショット学習: タスクの説明、例、ヒントを提供する

  • 数ショット学習: タスクの説明、いくつかの例、ヒントを提供する

50665215876e69209b199e231f51f4f2.png


データセット

モデル リリース時間 パラメータ量 事前トレーニング データの量
BERT-大 2019年3月 3億7500万 約3.3GB
GPT 2018年6月 1億1700万 約5GB
GPT-2 2019年2月 15億 40GB
GPT-3 2020年5月 1750億 45TB
  • BERT-large:BooksCorpus 800M words、英語Wikipedia 2.5Bwords

  • GPT: 5 GB 以上のWebText2、BooksCorpus、Wikipedia

  • GPT-2: WebText2、BooksCorpus、Wikipediaの合計容量が40GB に達しました。

  • GPT-3: **WebText2、BooksCorpus、Wikipedia、Common Crawl**、および 45 TB のデータを含むその他のデータ セット。

    f24b7264604996269011e2375c492002.png
    画像-20230221153905277

命令の微調整 (IFT)

さまざまな NLP タスクのデータセットを収集し、タスクの説明とヒントを追加して、新しいデータセットを組み立てます。chatGPT で使用されるデータ セットは次のとおりです。

375dc2201b7a793d887f2241ca81d47a.png
画像-20230221113507381

いくつかの関連論文:

  • Unnatural Instructions (Honovich 等、'22): https://arxiv.org/abs/2212.09689

  • 超自然的な指示 (王等、'22): https://arxiv.org/abs/2204.07705

  • Self-Instruct (王等、'22): https://arxiv.org/abs/2212.10560

  • T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207

  • 自然の指示データセット (Mishra et al., '22): https://arxiv.org/abs/2104.08773

  • FLAN LM (魏ら、'22): https://arxiv.org/abs/2109.01652

  • OPT-IML (Iyer 等、'22): https://arxiv.org/abs/2212.12017

監視付き微調整 (SFT)

このステップは、デリケートなトピックに遭遇したときの [わからない] のような無意味な回答を防ぐものではなく、手動でラベル付けされたデータを追加して返信のセキュリティを強化するものであり、100 レベルのデータセットで完了することができます

bc35c516e632633b9947f933e0d17cc0.png

いくつかの関連論文:

  • Google の LaMDA: 付録 A https://arxiv.org/abs/2201.08239

  • Sparrow by DeepMind: Sparrow: 付録 F https://arxiv.org/abs/2209.14375

ヒューマン フィードバック強化学習 (ヒューマン フィードバックからの強化学習、RLHF)

説明:

  • ポリシー: プロンプトを受け取り、一連のテキスト (またはテキストの確率分布) を返す LM。

  • アクションスペース(アクションスペース):LMの語彙に対応するすべてのトークン(一般的に50kのオーダー)、

  • 観測空間は可能な入力トークンのシーケンスであり、これも比較的大きい (語彙 ^ 入力トークンの数)。

  • 報酬関数は、選好モデルとポリシー シフト制約の組み合わせです。

このプロセスは 2 段階のプロセスです

  1. Q&A データを集計し、報酬モデルをトレーニングします (報酬モデル、RM)

  2. 強化学習 (RL) による LM の微調整

オープンソース データセット:

Anthropic/hh-rlhf · Hugging Face のデータセット

OpenAI は、ユーザーから送信されたフィードバックを使用します。

d7bfa7352c085459adf4058d1ee66fba.png
画像-20230221111329526

その他の方法

このパートでは、chatGPT で使用される微調整に類似したいくつかの方法を簡単に紹介します。

思考連鎖 (CoT)

以下に示すように、段階的な推論でいくつかのデータセットを使用した微調整

オレンジ色はタスクの説明、ピンク色は質問と回答、青色は推論プロセスです。

36c218fce4df15a8589b5ad409384c1e.png

Chain of Thought Tips (Wei et al., '22): https://arxiv.org/abs/2201.11903

chatGPTに似た仕事

  • メタの BlenderBot: https://arxiv.org/abs/2208.03188

  • Google の LaMDA: https://arxiv.org/abs/2201.08239

  • DeepMind によるスズメ: https://arxiv.org/abs/2209.14375

  • Anthropic 的アシスタント: https://arxiv.org/abs/2204.05862

引用

  • 変圧器モデル: 紹介とカタログ

  • WebGPT: 人間のフィードバックによるブラウザ支援の質問応答

  • 人間のフィードバックで指示に従うように言語モデルをトレーニングする

  • https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew

  • https://openai.com/blog/chatgpt/

  • https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ

  • https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug

  • https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w

  • https://zhuanlan.zhihu.com/p/595891945

  • https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

  • https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

  • https://arxiv.org/pdf/1706.03762.pdf

  • https://arxiv.org/pdf/2005.14165.pdf

  • https://arxiv.org/pdf/1810.04805.pdf


NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

惑星に参加すると、次のものが得られます。

1.  3 ~ 5 個の最新の高品質の用紙速度測定値を毎日更新します

2. 最新の入門および上級学習教材

4.  NLP、サーチ、昇進・昇格、CVなどのAI職の1日1~3件の募集情報

f19b849de8e43ddbdd4a4747140a1d8a.png

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/130023510