LLM: 人間のフィードバックからの強化学習 (RLHF)

テキスト要約のタスクを考えてみましょう。これは、モデルを使用して、長い記事の最も重要なポイントを捉えた短いテキストを生成することです。目標は、微調整を使用して、人間が生成した要約例を表示することでモデルの要約機能を向上させることです。2020年、OpenAIの研究者らは、人間のフィードバックを微調整に使用して、テキスト記事の短い要約を書くモデルをトレーニングすることを検討した論文を発表した。ここでは、人間のフィードバックに基づいて微調整されたモデルが、事前トレーニングされたモデル、指示に基づいて微調整されたモデル、さらには人間の参照ベースラインよりも優れた応答を生成することがわかります。
ここに画像の説明を挿入します
ヒューマン フィードバックを使用して大規模な言語モデルを微調整する一般的な手法は、ヒューマン フィードバックからの強化学習 (RLHF) と呼ばれます。

名前が示すように、RLHF は強化学習 (略して RL) を使用し、人間のフィードバック データを使用して LLM を微調整し、人間の好みとより一致したモデルを生成します。RLHF を使用すると、入力プロンプトの有用性と関連性を最大限に高める出力をモデルが確実に生成することができます。おそらく最も重要なことは、RLHF が怪我の可能性を最小限に抑えるのに役立つことです。モデルの限界を認識し、有害な言葉やトピックを回避するメモを提供するようにモデルをトレーニングできます。
ここに画像の説明を挿入します

RLHF の潜在的に刺激的なアプリケーションは LLM のパーソナライゼーションです。モデルは継続的なフィードバック プロセスを通じて各ユーザーの好みを学習します。これは、パーソナライズされた学習プランやパーソナライズされた AI アシスタントなどのエキサイティングな新テクノロジーにつながる可能性があります。

しかし、これらの将来のアプリケーションがどのように可能になるかを理解するために、まず RLHF がどのように機能するかを詳しく見てみましょう。強化学習を初めて使用する場合は、最も重要な概念のいくつかについて概要を説明します。

強化学習は、累積報酬の概念を最大化することを目的として、環境内でアクションを実行することによって、エージェントが特定の目標に関連する意思決定を行うことを学習する機械学習の一種です。
ここに画像の説明を挿入します

このフレームワークでは、エージェントは行動を起こし、その結果として生じる環境の変化を観察し、行動の結果に基づいて報酬またはペナルティを受け取ることによって、経験から継続的に学習します。このプロセスを繰り返すことで、エージェントは戦略やポリシーを徐々に洗練させ、より適切な意思決定を行い、成功の可能性を高めます。
ここに画像の説明を挿入します

これらのアイデアを説明するのに役立つ例は、三目並べをするようにモデルをトレーニングすることです。見てみましょう。この例では、エージェントは三目並べプレーヤーとして機能するモデルまたは戦略です。その目標はゲームに勝つことです。環境は 3 対 3 のゲーム ボードであり、常に状態はボードの現在の構成です。アクション スペースには、プレーヤーが現在のボードの状態に基づいて選択できるすべての可能なポジションが含まれます。エージェントは、RL ポリシーと呼ばれるポリシーに従って決定を行います。エージェントがアクションを実行すると、そのアクションがどれだけ効果的に勝利につながったかに基づいて報酬を収集します。強化学習の目標は、エージェントが特定の環境で最適なポリシーを学習し、それによって報酬を最大化することです。この学習プロセスは反復的であり、試行錯誤が伴います。
ここに画像の説明を挿入します

最初に、エージェントは新しい状態をもたらすアクションをランダムに実行します。この状態から、エージェントはさらなるアクションを通じてその後の状態を探索し続けます。一連のアクションと対応する状態はレイアウトを形成し、これは多くの場合デプロイメントと呼ばれます。エージェントは経験を積むにつれて、長期的に最も高い報酬をもたらすアクションを徐々に発見し、最終的にはゲームで成功を収めます。
ここに画像の説明を挿入します

次に、RLHF を使用して大規模な言語モデルを微調整するために三目並べの例を拡張する方法を見てみましょう。この場合、エージェントのポリシーガイド アクションは Instruct LLM であり、その目標は人間の好みに適合すると思われるテキストを生成することです。たとえば、これは、テキストが有用で、正確で、有害ではないことを意味する場合があります。環境はモデルのコンテキスト ウィンドウであり、プロンプトを介してテキストを入力できるスペースです。アクションを実行する前にモデルが考慮する状態が現在のコンテキストです。これは、コンテキスト ウィンドウに現在含まれているテキストを意味します。ここでの操作はテキストを生成する行為です。これは、ユーザーが指定したタスクに応じて、単一の単語、文、または長い形式のテキストにすることができます。アクション スペースはトークン ボキャブラリであり、モデルが可能なすべての完了トークンを生成することを選択できることを意味します。
ここに画像の説明を挿入します

Instruct LLM がシーケンス内の次のトークンを生成する方法を決定する方法は、トレーニング中に学習した言語の統計的表現によって異なります。いつでも、モデルが実行するアクション、つまり次にどのトークンを選択するかは、コンテキスト内のキューテキストと語彙空間全体の確率分布によって異なります。報酬は、完了内容が人間の好みにどれだけ一致するかに基づいて分配されます。

人間の言語に対する反応が異なることを考えると、報酬を決定することは三目並べの例よりも複雑です。これを行う 1 つの方法は、生成されたテキストが有害であるか無害であるかを判断するなど、何らかの調整基準に照らしてモデルのすべての完成度を人間に評価させることです。このフィードバックは、0 または 1 のスカラー値として表現できます。
ここに画像の説明を挿入します

その後、人間の分類器から得られる報酬を最大化するために LLM の重みが繰り返し更新され、モデルがポイズンのない補完を生成できるようになります。

ただし、人間のフィードバックを得るには時間と費用がかかる場合があります。実用的でスケーラブルな代替手段として、報酬モデルと呼ばれる追加モデルを使用して、Instruct LLM の出力を分類し、人間の好みとの一貫性を評価することができます。少数の人間の例から開始し、従来の教師あり学習方法を通じて 2 次モデルをトレーニングします。トレーニングが完了したら、報酬モデルを使用して LLM の出力を評価し、報酬値を割り当てます。この値は、LLM の重みを更新し、人間に合わせた新しいバージョンをトレーニングするために使用されます。
ここに画像の説明を挿入します

モデルの完成度を評価する場合、重みがどのように更新されるかは、戦略の最適化に使用されるアルゴリズムによって異なります。これらの問題については、後ほど詳しく説明します。最後に、言語モデリングのコンテキストでは、アクションと状態のシーケンスは、古典的な強化学習で使用される用語プレイアウトではなく、ロールアウトと呼ばれることに注意してください。

ここに画像の説明を挿入します

報酬モデルは、強化学習プロセスの中核となるコンポーネントです。これは人間のフィードバックから学習したすべての設定をエンコードし、モデルが複数の反復を通じて重みを更新する方法において中心的な役割を果たします。次のビデオでは、このモデルがどのようにトレーニングされるか、またモデルの出力を分類するために強化学習中にどのように使用されるかを説明します。さあ、見てみましょう。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/NY6K0/reinforcement-learning-from-human-フィードバック-rlhf

おすすめ

転載: blog.csdn.net/zgpeace/article/details/133411622