記事ディレクトリ
抽象的な
人間のコマンドと手動で注釈が付けられた望ましい結果が与えられると、データセットが形成され、教師あり学習を使用して GPT-3 を微調整します。
次に、モデルの出力をランク付けして新しいデータセットを形成し、強化学習を使用してこの教師ありモデルをさらに微調整します。
結果のモデルを InstructGPT と呼びます。
ラベラーが作成した一連のプロンプトと
OpenAI API 経由で送信されたプロンプトから始めて、
望ましいモデルの動作を示すラベラーのデモンストレーションのデータセットを収集します。これを使用して、教師あり学習を使用して GPT-3 を微調整します
。次に、モデル出力のランキングのデータセットを収集し、
人間のフィードバックからの強化学習を使用してこの教師ありモデルをさらに微調整するために使用します
。結果のモデルを InstructGPT と呼びます。
導入のための 3 つの具体的なステップ
- いくつかの質問を手動で選択し、手動で回答を入力して、このデータ セットを使用して SFT モデルをトレーニングします。
- トレーニングされた SFT モデルにいくつかの質問に答えてもらい、その回答を手動でスコア付けして並べ替えてから、データ セットのこの部分を使用して報酬モデル RM をトレーニングします。
- 報酬モデル RM のスコアリング結果に基づいて、SFT モデルの最適化を続けます。
結果
InstructGPT のパラメータは GPT-3 の 1/100 ですが、パフォーマンスは優れています。同時に、信頼性と有害な出力の削減という点では、InstructGPT の方が優れています。
プロンプト配布に対する人間による評価では
、パラメーターが 100 分の 1 少ないにもかかわらず、1.3B パラメーターの InstructGPT モデルからの出力が
175B GPT-3 からの出力よりも優先されます。
さらに、InstructGPT モデルは、
公開 NLP データセットでのパフォーマンスの低下を最小限に抑えながら、真実性の向上と有害な出力生成の削減を示しています
。
記事リンク: https://arxiv.org/pdf/2203.02155.pdf