ヒューマンフィードバックによる強化学習 (RLHF) は LLM の分野でどのように機能しますか?

人間のフィードバックに基づく強化学習は、LLM の分野でどのように機能しますか?

なぜ強化学習が必要なのか

インジケーターは測定できませんこれまでのnlpタスクでは、品詞タグ付け、機械翻訳、意味判別などのタスクがnlpタスクの主力でしたが、これらのタスクのルールベースの評価指標(BLEUやROUGEなど)をそのまま活用することはできませんでした。人間が質問応答システムに求める結果と比較します。

逐次的な決定が必要です答えや決断を探しているとき、それを一夜にして達成することは不可能であり、段階的に行う必要があります(象を冷蔵庫に入れるのに数ステップかかる)が、これは CoT ポイントとは一致しません。視界の。
しかし、チャットボットと段階的に (エージェントと環境) 対話する場合、どのような答えが最適であるかはわかりませんが、エージェントと環境の対話など、いくつかの学習戦略を使用して、それが良いか悪いかを検証できます。 (chatgpt のような質問をします)、エージェントはアクション (次のトークンまたは次のトークンのセット) をフィードバックし、報酬モデル (LLM も) を通じて良いスコアまたは悪いスコアを取得します。強化学習の目標は、この賞を最大限に活用してください。

実際、上記のステップは SFT のステップで置き換えることもできますが、いくつかの制限があります。教師あり学習の方法で大規模モデルを微調整することは、基本的に、大規模モデルに、マークされたコンテンツのスタイルを学習させることです。多様性と創造性に欠けるアノテーター。さらに、視覚的なラベリング情報とは異なり、「ボックスを描く」ほど単純ではなく、ラベリング担当者にとっては読解力の問題に近いため、ラベリングのコストも大幅に増加します。

RLHF

rlhf は、複数のモデルのトレーニング プロセスを必要とするため、やりがいのある作業です。

事前トレーニングモデル

このステージは、InstructGPT の SFT ステージに対応します。OpenAI は GPT-3 の小さいバージョンを使用し、Anthropic はトレーニングに 10M ~ 52B のパラメーターを持つ Transformer を使用し、DeepMind は 280B パラメーター モデル Gopher を使用します。
ここに画像の説明を挿入

詳細については、InstrcutGPTを参照してください。

報酬モデル

報酬モデルの入力はエージェントのアクション (chatgpt の回答の内容) であり、その値が人の好みを表すスカラーを返します。この報酬モデルは、エンドツーエンドの言語モデルまたはモジュラー システムにすることができます。どのような構造を選択し、どのデータを微調整するかという報酬モデルに関しては、今のところ最良の選択はありません。

InstructGPT では、作成者は小型の GPT3 を使用し、線形層をモデルの最後の層に接続し、出力次元は 1 です。

RM をトレーニングするとき、トレーニング データの作成者は最初にラベラーにデータにスコアを直接ラベル付けるよう依頼しましたが、ラベルの値が異なるため、データにノイズが多くなります。
そこで著者は後でラベラーにテキストの順位をマークするよう依頼しました。テキストは同じプロンプトの異なるモデルの出力から取得されたものである場合もあれば、ビーム探索法を通じて異なる出力を取得するために同じプロンプトと同じモデルから取得されたものである場合もあります。次に、EIO メカニズムを通じてランキングをスカラー スコアに変換し、正規化して、変換後にトレーニング データを取得します。
ここに画像の説明を挿入

RL で微調整する

微調整問題を強化学習問題に変換するには、まず戦略 (エージェントとも呼ばれる) を定義します。これは実際には大規模な言語モデルであり、プロンプトを入力し、一連のテキストまたはテキストの確率分布を出力します。アクション空間は語彙テキスト、観察空間は入力シーケンス、報酬モデルは、ポリシー パラメーターの最適化を制約するために使用される、事前にトレーニングされた優先モデルです。

報酬モデルは、これまでの概念をすべて結び付けます。プロンプトと x を指定すると、y1 と y2 の 2 つのテキストが生成されます。1 つは SFT 後のモデルから、もう 1 つは現在の戦略の出力からです。現在の戦略によって出力されたモデルを報酬モデルに入力して、スカラー選好スコアr θ r_\thetaを取得します。r次に、2 つのテキスト y1 と y2 の間のギャップを比較し、また y1 の確率分布と y2 の確率分布を比較して、ペナルティを計算します。OpenAI、Anthropic、DeepMind の文献では、このペナルティは正規化された KL として設計されています。 2 つのダイバージェンスr KL r_{KL}のうちrKL _この KL 発散は、各バッチで現在のポリシーが元のモデルからどれだけ逸脱しているかをペナルティして、出力が大きく変化しないようにするために使用されます。この制限がないと、モデルは走り書きのテキストを生成しますが、報酬関数を騙してまともなスコアを取得する可能性もあります。最終的な報酬モデルは次のように定義されます。
ここに画像の説明を挿入

一部の RLHF システムでは、ボーナス関数に追加の項が追加されます。たとえば、OpenAI は、追加の事前トレーニング済み勾配 (人間による注釈付きセットから) を PPO の更新ルールに混合することで、InstructGPT の実験に成功しました。RLHF のさらなる研究により、この報酬関数の定式化は進化し続ける可能性があります。
ここに画像の説明を挿入

参考

https://huggingface.co/blog/zh/rlhf
https://blog.replit.com/llm-training

おすすめ

転載: blog.csdn.net/qq_18555105/article/details/130365188