【書籍寄贈活動|『強化学習:原理とPythonの実践』第6号】

RLHFとは何ですか?

強化学習では、報酬信号を使用してエージェントをトレーニングします。一部のタスクには報酬シグナルを与えることができる独自の環境がなく、報酬シグナルを生成する既製の方法もありません。この目的を達成するために、報酬モデルを構築して報酬シグナルを提供できます。報酬モデルを構築する場合、人間が提供するデータを使用して、データ駆動型の機械学習アプローチを使用して報酬モデルをトレーニングできます。以下の図に示すように、人間が提供するフィードバック データを使用して強化学習の報酬モデルを学習するシステムをヒューマン フィードバック強化学習と呼びます。

図: ヒューマン フィードバック強化学習: ヒューマン フィードバック データを使用して報酬モデルをトレーニングし、報酬モデルを使用して報酬信号を生成します。

RLHF はどのようなタスクに適していますか?

RLHF は、次の条件をすべて同時に満たすタスクに適しています。

解決すべきタスクは強化学習タスクですが、報酬信号はすぐには入手できず、報酬信号が決定される方法も事前にはわかりません。強化学習エージェントをトレーニングするには、報酬信号を取得するための報酬モデルを構築することを検討してください。
反例: たとえば、ビデオ ゲームにはゲーム スコアがあり、そのようなゲーム プログラムは報酬シグナルを与えることができるため、人間のフィードバックなしでゲーム プログラムを直接使用してフィードバックを与えることができます。
反例: 一部のシステムの報酬シグナルを決定する方法は既知であり、たとえば、取引システムの報酬シグナルは稼いだ金額によって完全に決定できます。このとき、報酬信号は手動フィードバックなしで既知の数式を使用して直接決定できます。

人間のフィードバック データを使用せずに適切な報酬モデルを構築することは困難ですが、人間のフィードバックは適切な報酬モデルを取得するのに役立ち、人間のフィードバックは合理的なコスト (コスト、時間などを含む) で取得できます。他の方法で収集されたデータと比較して、人間によるフィードバックを使用してデータを取得することに利点がない場合は、人間によるフィードバックは必要ありません。

報酬モデルを構築する他の方法と比較した RLHF の長所と短所は何ですか?

報酬モデルは手動で指定することも、教師ありモデルや逆強化学習などの機械学習手法を通じて学習することもできます。RLHF は機械学習手法を使用して報酬モデルを学習し、学習プロセス中に人間によるフィードバックを使用します。

報酬モデルを手動で指定する場合と、報酬モデルを学習する機械学習の長所と短所を比較する: これは、機械学習一般の長所と短所についての議論と同じです。機械学習手法の利点には、あまり多くのドメイン知識を必要としないこと、非常に複雑な問題に対処できること、大量の高次元データを高速に処理できること、データの増加に応じて精度を向上できることなどが挙げられます。の上。機械学習アルゴリズムの欠点には、そのトレーニングと使用にデータ、時間、空間、電力などのリソースが必要であること、モデルと出力の解釈が不十分である可能性があること、モデルに欠陥がある可能性があること、カバレッジが十分でないこと、または攻撃されます (大規模モデルでのプロンプト ワード インジェクションなど)。

人間のフィードバック データと人間以外のフィードバック データを使用する利点と欠点を比較します。手動によるフィードバックは多くの場合、より時間と労力がかかり、人によってパフォーマンスが異なる場合があり、人によっては意図的または非意図的に間違いを犯したり、結果が変わったりすることがあります。人間によるフィードバックは、効果的なデータを生成するために他の方法を使用するほど良くありません。人間によるフィードバックの限界については、以下で詳しく説明します。機械が収集したデータなど、人間以外のフィードバック データを使用する場合、収集されるデータの種類には制限があります。データの中には、人間のみが収集できるものや、機械による収集が困難なものもあります。このようなデータには、主観的で人間的なデータ (芸術作品の芸術性の判断など) や、機械ではできないこと (AI が人間より一時的に劣るゲームのプレイなど) が含まれます。

良いフィードバックとはどのような人間のフィードバックですか

良好なフィードバックが十分である必要があります: フィードバック データは報酬モデルの学習に使用でき、データは十分に正確で、十分な大きさで、後続の強化学習で満足のいくエージェントを取得するのに十分な報酬モデルを作成するのに十分な包括的です。
この部分に関係する評価指標には、データ自体の評価指標 (正確性、データ量、カバレッジ、一貫性)、報酬モデルとそのトレーニング プロセスの評価指標、強化学習トレーニング プロセスとトレーニングされたエージェントの評価指標が含まれます。 。

良いフィードバックが得られる必要があります。フィードバックは、妥当な時間と費用で、また他のリスク (法的リスクなど) を負うことなく管理可能なコストで提供される必要があります。

評価指標としては、データ作成時間、データ作成要員数、データ作成コスト、その他のリスクの有無の判断などが挙げられます。

RLHF アルゴリズムのカテゴリは何ですか?また、その長所と短所は何ですか?

RLHF アルゴリズムには、教師あり学習の考え方を使用して報酬モデルを訓練する RLHF と、逆強化学習の考え方を使用して報酬モデルを訓練する RLHF の 2 つのカテゴリがあります。

1. 教師あり学習の考え方で報酬モデルをトレーニングする RLHF システムでは、人間のフィードバックは報酬信号または報酬信号の派生信号 (報酬信号の順序付けなど) です。

直接フィードバック報酬信号と微分量のフィードバック報酬信号には長所と短所があります。この利点は、報酬基準値を取得した後、それを教師あり学習のラベルとして直接使用できることです。欠点は、異なる人が異なるタイミングで与える報酬シグナルが一貫性がなかったり、矛盾したりする可能性があることです。報酬モデル入力の比較やランキングなど、報酬信号のフィードバック導関数。一部のタスクでは一貫した報酬値を与えるのが困難ですが、サイズを比較するのははるかに簡単です。しかし、密度の情報はありません。同様の状況が多数発生した場合、報酬の特定の部分に対応するサンプルが密になりすぎて、収束しない可能性があります。

一般に、比較タイプのフィードバックを使用すると、中央値のパフォーマンスは向上しますが、平均のパフォーマンスは向上しないと考えられています。

2. 逆強化学習の考え方を利用して報酬モデルを訓練する RLHF システムでは、人間のフィードバックは報酬信号ではなく、報酬を大きくする報酬モデルの入力となります。つまり、人間はより正確な数量、テキスト、カテゴリ、物理的行為などを与え、この時点での報酬が比較的大きくなるように報酬モデルに指示します。実はこれ、逆強化学習の考え方です。

教師あり学習を使用して報酬モデルをトレーニングする RLHF と比較して、この方法には、報酬モデルをトレーニングするためのサンプル ポイントが、システムによって与えられる判定が必要なサンプルに制限されなくなるという利点があります。報酬を評価する必要があるシステムによって提供されるサンプルには制限がある可能性があるためです (システムが最適な間隔を見つけられないため)。

システム構築の初期段階では、ユーザーが提供した参考回答を利用して、初期の強化学習問題を模倣学習問題に変換することもできます。

このような設計は、人間が独自に専門家の意見を与えることができるフィードバックの種類と、人間が既存のデータに基づいて改善することを可能にするフィードバックの種類によってさらに分類できます。人間に意見を求めることは、模倣学習において人間に専門家の戦略を提供するよう求めるのと似ています (もちろん、多少異なるかもしれません。結局のところ、報酬モデルの入力は行動だけではありません)。ユーザーが既存の参照コンテンツを変更できるようにすると、人による各注釈のコストを削減できますが、既存の参照コンテンツが人間の独立した判断を妨げる可能性があります (この干渉はプラスまたはマイナスの場合があります)。

RLHF で人間によるフィードバックを使用する場合の制限は何ですか?

前述したように、人間によるフィードバックは時間と手間がかかる場合があり、必ずしも正確さと一貫性が保証されるわけではありません。さらに、以下の点により報酬モデルが不完全で不正確になり、その後の強化学習トレーニングで満足のいくエージェントの行動が得られなくなります。

1. 人間によるフィードバックを提供する集団は偏っているか、限定されている可能性があります。

この問題は、数学的統計におけるサンプリング方法で発生する可能性のある問題の種類に関連しています。RLHF システムにフィードバックを提供する母集団は、最良の母集団ではない可能性があります。コストや可用性などの要因により、人件費の低いチームが選択されることがありますが、そのようなチームは十分な専門性を備えていなかったり、差別的な情報を含む異なる法的、道徳的、宗教的概念を持っている可能性があります。フィードバック担当者の中には、誤解を招くフィードバックを提供する悪意のある人がいる可能性があります。

2. 人間の意思決定は、機械の意思決定ほど賢明ではない可能性があります。
問題によっては、機械のほうが人間よりもうまくできることもあります。たとえば、チェスや囲碁などのボードゲームでは、生身の人間は人工知能プログラムと比較できません。問題によっては、人間が処理できる情報はデータ駆動型プログラムよりも少なくなります。たとえば、自動運転のアプリケーションでは、人間は 2 次元の画像と音声に基づいてのみ意思決定を行うことができますが、プログラムは 3 次元空間の情報を連続時間で処理できます。したがって、理論的には、人間のフィードバックの品質はプログラムの品質ほど良くありません。

3. フィードバックを提供する人の身元はシステムに導入されません。
誰もがユニークです。誰もが独自の成長環境、宗教的信念、道徳的概念、学習と仕事の経験、知識の蓄えなどを持っています。各人の特性をすべてシステムに導入することは不可能です。この場合、人による特徴次元の違いを無視すると、多くの有効な情報が失われ、報酬モデルの性能が低下してしまいます。

大規模な言語モデルを例に挙げると、ユーザーはプロジェクトのプロンプトによって特定の役割やコミュニケーション方法と通信するためのモデルを指定できます。たとえば、言語モデルの出力テキストがより丁寧で礼儀正しいことが必要な場合があります。何かを言うことはあまり丁寧ではありません; 時には出力はより創造的であることが要求され、時には事実をより厳密に尊重することが要求されます; 時には出力は、簡潔で簡潔であることが求められ、時には詳細で完全なアウトプットが求められ、時には中立的で客観的なアウトプットが求められ、その範囲内での議論には、時には人文社会の環境背景を考慮したアウトプットが求められます。フィードバック データを提供する人々のさまざまなアイデンティティの背景やコミュニケーションの習慣が、さまざまな状況における出力要件に対応している可能性があります。この場合、フィードバックする人の特性が非常に重要です。

4. 人間の性質により、データセットが不完全になる可能性があります。

たとえば、言語モデルはお世辞やハイハットの着用などの行動によって高スコアの評価を得る可能性がありますが、そのような高スコアの評価は実際には問題を解決せず、システム設計の本来の意図に反する可能性があります。スコアが高いように見えますが、実際に解決すべき問題を解決するのではなく、物議を醸すような話題を避けたり、お世辞を言ったりして、本来のシステム設計の意図を達成できていないために高いスコアが得られている可能性があります。

さらに、人間によるフィードバックには、情報漏洩などのセキュリティ リスクや規制上の法的リスクなど、技術的以外のリスクもあります。

人間のフィードバックによる悪影響を軽減するにはどうすればよいでしょうか?

人間によるフィードバックは時間がかかり、不完全で不正確な報酬モデルにつながる可能性があるという問題を解決するため、人間のフィードバックデータを収集しながら、報酬モデルをトレーニングし、エージェントをトレーニングし、報酬モデルとエージェントを総合的に評価して、人間のフィードバックデータを収集することができます。欠陥がある場合はできるだけ早くフィードバックしてください。欠陥が見つかった場合は、時間内に調整を行ってください。

人間のフィードバックにおけるフィードバック品質の問題や間違ったフィードバックに対応して、人間のフィードバックの品質を検証するために既知の報酬を備えた検証サンプルを導入したり、同じサンプルに対するフィードバックを複数回要求して比較したりするなど、人間のフィードバックを検証および監査できます。複数回のフィードバックの結果など

フィードバック担当者の不適切な選択の問題を考慮して、人件費の効果的な管理に基づいて、フィードバックを提供する担当者を選択するために科学的方法を使用することができる。フィードバック母集団をより合理的にするために、層化サンプリング、クラスター サンプリングなどの数理統計のサンプリング方法を参照できます。

フィードバックデータにフィードバック者の特徴が含まれていないために報酬モデルが不十分であるという問題に対して、フィードバック者の特徴を収集し、報酬モデルのトレーニングに使用することができます。たとえば、大規模な言語モデルのトレーニングでは、フィードバック担当者 (弁護士、医師など) の職業的背景を記録し、報酬モデルをトレーニングするときに考慮することができます。ユーザーがエージェントに弁護士のように働くように依頼する場合、エージェントは弁護士から提供されたデータから学習した報酬モデルの一部を使用して報酬シグナルを提供する必要があります。ユーザーがエージェントに医師のように働くように依頼する場合は、報酬モデルの一部を使用する必要があります。医師によって提供されたデータ 報酬モデルの学習された部分は、報酬信号を提供するために使用されます。

さらに、システム全体の導入中に、法的およびセキュリティのリスクを軽減するために専門家のアドバイスを求めることができます。

本の紹介

  • この理論は完全であり、強化学習のバックボーン理論と一般的なアルゴリズムをカバーし、ChatGPT の技術的なポイントを説明します。
  • 実用性が高く、各章にはプログラミングの事例があり、深層強化学習アルゴリズムでは TenorFlow と PyTorch の比較実装が提供されます。
  • サポート資料が豊富で、章ごとに知識ポイントの概要が提供され、章後のさまざまな演習が用意されています。Gym のソースコード解釈、開発環境構築ガイド、自習に役立つ演習の解答などのオンライン リソースもあります。

ここに画像の説明を挿入

宝くじ

  • フォロー+いいね+お気に入りの記事

  • コメント欄にメッセージを残してください: 建築家になりたい (賞品プールに参加するには、フォローしてメッセージを残してください。メッセージは 1 人につき 3 つまで残せます)

  • 日曜午後8時にランダム抽選

  • 今回は2~5冊プレゼント【読めば読むほどプレゼント】
    500~1000 2冊
    1000~1500 3冊
    1500~2000 4冊
    2000+5冊

おすすめ

転載: blog.csdn.net/weixin_44816664/article/details/132407539