ディープラーニングを簡単に: chatGPT で使用される RLHF プロセスと微調整の違いは何ですか?

RLHF メソッドと微調整メソッドの違いは何ですか? 微調整は実際には RLHF メソッドの最初のステップです。読み続けて。

人間のフィードバックによる強化学習 (RLHF) は、基礎となるモデルを人間の好みに合わせて調整する効果的な方法であることが示されています。モデルの微調整を含むこの手法は、OpenAI の ChatGPT モデルや Anthropic の Claude モデルの成功が示すように、人工知能の最近の進歩において重要な役割を果たしています。

RLHF の実装により、モデルの使いやすさとパフォーマンスに微妙ではあるが重要な改善がもたらされます。これらの改善には、トーンの改善、バイアスと有害な要素の軽減、ドメイン固有のコンテンツ生成の有効化が含まれます。この記事では、大規模言語モデル (LLM) の微調整における RLHF のアプリケーションについて詳しく説明します。

人間のフィードバックから強化学習を理解する

RLHF は、強化学習における基本的な課題、つまり多くの強化学習タスクの目標の複雑さ、曖昧さ、難しさの定義から生まれました。このジレンマは、論文「人間の好みからの深層強化学習」で強調されているように、私たちの価値観と RL システムの目標との間の不一致につながります。

多くの AI アプリケーション、特に企業では、特定するのが難しい目標に直面しています。たとえば、コンテンツ キュレーションでは、キュレーションの詳細なポリシー コンテキストが、アルゴリズムによる適用の決定と矛盾する可能性があります。同様に、自動サポート エージェントなどのコンテンツ生成に関しても、最高の品質を達成することは困難です。生成 AI は費用対効果の高いコンテンツ作成を可能にしますが、ブランド スタイルとトーンの一貫性に関する懸念が広範な導入を妨げています。チームはブランド ガイドラインに一貫して一致する報酬機能をどのように確立できるでしょうか? AI 生成コンテンツに関連するリスクが高い状況では、決定的なチャットボットまたは人間のサポート エージェントを選択することが健全な投資となる可能性があります。

従来の強化学習では、明示的な報酬関数がアルゴリズムをガイドできます。ただし、より複雑なタスクでは、適切な報酬関数を決定することが困難になる場合があります。この場合、人間の好みが AI システムを効果的に導き、正しい決定を下すことができます。これは、専門知識がなくても、人々は複雑で状況に応じたタスクをナビゲートするための直感的な理解を持っているためです。たとえば、ブランドのマーケティング コピーのサンプルが与えられた場合、個人は、AI が生成したコピーがブランドの意図したトーンとどの程度一致しているかを簡単に評価できます。ただし、主な課題は、人間の好みを強化学習トレーニング プロセスに直接組み込むのに必要な時間とコストにあります。人間の好みからの深層強化学習の論文で述べられているように、「報酬関数として人間のフィードバックを直接使用することは、数百時間または数千時間の経験を必要とする強化学習システムにとって法外なコストがかかります。」

この課題に対処するために、研究者らは人間のフィードバックからの強化学習 (RLHF) を導入しました。これには、人間の好みを推定するための報酬予測子または好みモデルのトレーニングが含まれます。報酬予測器を利用すると、人間によるフィードバックを RL アルゴリズムに直接提供する場合と比較して、プロセスの費用対効果とスケーラビリティが大幅に向上します。

RLHF プロセス: OpenAI からの洞察

RLHF による大規模言語モデルの改善

RLHF は、実用性、精度を向上させ、大規模な言語モデルの有害なバイアスを軽減するための強力なツールです。OpenAI 研究者による GPT-3 と InstructGPT (RLHF を使用して微調整されたモデル) の比較では、アノテーターが InstructGPT の出力を「著しく好む」ことが示されました。また、InstructGPT は、信頼性と有害性の評価の点で GPT-3 よりも改善されていることが実証されています。同様に、Anthropic は 2022 年の研究論文で同様の利点を文書化し、「RLHF は、単純な拡張モデルと比較して、有益な特性と無害な特性の両方で劇的な改善をもたらします。」と述べており、大規模な言語モデルのさまざまなビジネス目標を達成するという点で強力な例が示されています。

微調整のための RLHF ワークフローを調べてみましょう。

ステップ 1: デモンストレーション データを収集し、監視付きポリシーをトレーニングする

大規模言語モデル (LLM) の微調整を開始するには、最初のステップはデモ データと呼ばれるデータセットを収集することです。このデータセットには、微調整されたモデルの望ましい動作を表すテキスト キューとそれに対応する出力が含まれています。たとえば、電子メールの概要タスクでは、プロンプトが電子メール全体になり、完了が 2 文の要約になることがあります。チャット タスクでは、プロンプトが質問であり、完了部分が理想的な回答である可能性があります。

デモ データは、自己参照言語モデルや自己生成ディレクティブの概念で示されているように、既存のデータ、アノテーション チーム、さらにはモデル自体から生成されたデータなど、さまざまなソースから収集できます。OpenAI の微調整ガイドラインによると、微調整を成功させるには通常、数百の高品質のサンプルが必要です。モデルのパフォーマンスは、データセットのサイズに比例して増加する傾向があります。OpenAI の研究者が示唆しているように、正確性を確保し、有害なコンテンツを回避し、偏見を軽減し、役立つ情報を提供するには、デモンストレーション データセットを手動でレビューすることが重要です。

OpenAI や Cohere などのプラットフォームは、教師あり学習を使用して大規模な言語モデルを微調整するための詳細なガイドを提供します。

ステップ 2: 比較データを収集し、報酬モデルをトレーニングする

大規模な言語モデルが教師あり学習を使用して微調整されると、タスク固有の完了を自律的に生成できるようになります。RLHF プロセスの次の段階では、モデル生成の完了部分との比較の形で人間のフィードバックを収集します。これらの比較データは、報酬モデルのトレーニングに使用され、強化学習によって微調整された教師あり学習モデルを最適化するために使用されます (ステップ 3 で説明)。

比較データを生成するために、アノテーション チームはモデルによって生成された複数の補完をランク付けします。アノテーターは、これらの補完を最高から最低までランク付けします。完成したパーツの数は、単純な並べての比較から 3 つ以上の完成したパーツのシーケンスまでさまざまです。InstructGPT の微調整中に、OpenAI は、ランク付けのためにアノテーターに 4 ~ 9 の範囲の完成した部分を表示することが効果的であることを発見しました。

モデルの完成品を直接アップロードするか、リアルタイム生成用のモデル エンドポイントを介して、比較タスクを支援できるサードパーティ ベンダーやツールがあります。

微調整された LLM をベンチマークと比較することは、その信頼性、有益性、偏り、有害性を評価するために重要です。TruthfulQA、質問応答指向バイアス ベンチマーク、有害性を評価するための RealToxicityPrompts などの標準 LLM ベンチマークを使用できます。

ステップ 3: 強​​化学習を使用した教師ありポリシーの最適化

このステップでは、強化学習 (RL) アルゴリズムを利用して、微調整された LLM を表す教師あり学習ベースラインがさらに最適化されます。OpenAI によって開発された RL アルゴリズムの注目すべきクラスは、Proximal Policy Optimization (PPO) です。PPO アルゴリズムの詳細については、OpenAI の Web サイトをご覧ください。

強化学習プロセスは、教師ありポリシーの動作をアノテーターによって表現された設定に合わせます。ステップ 2 と 3 を繰り返すことで、モデルのパフォーマンスを継続的に向上させることができます。

上記は、RLHF を使用して大規模な言語モデルを微調整するワークフローです。RLHF 手法では、教師あり学習と強化学習を組み合わせることで、モデルを人間の好みや意図により沿ったものにすることができ、それによってモデルの使いやすさ、パフォーマンス、品質を向上させることができます。このアプローチは、ChatGPT や Claude などのモデルの成功に重要な役割を果たしており、さまざまな商業目標を達成する上で大きな可能性を示しています。

RLHF 手法は大規模な言語モデルの微調整に限定されず、レコメンダー システム、ロボット制御などの他の分野やタスクにも適用できることを指摘しておく必要があります。RLHF は、ヒューマン フィードバックと強化学習を組み合わせることで、複雑なタスクにおける報酬関数を定義するという困難な問題に対処する強力なアプローチを提供し、それによって AI システムのパフォーマンスと適応性を向上させます。

読む

英文版

焦点を合わせる

一般公開なし

おすすめ

転載: blog.csdn.net/robot_learner/article/details/131280499