RLAIF の詳細共有と個人的な考え

RLAIF の詳細共有と個人的な考え

厚い

厚い

シェルのシニアエンジニア

目次

近い

前に書く

RLAIF対RLHFの結果

AI による嗜好データのラベル付けの効果と人間によるラベル付けの効果を一致させるにはどうすればよいでしょうか?

位置バイアスへの対処:

思考連鎖推論

自己一貫性

ラベル付けモデルのサイズの影響?

実験の詳細

データ

LLM アノテーション

モデルのトレーニング

上記 2 つの RM モデルの比較

SFT-RM-RL トレーニングのハイパーパラメータ設定

RLAIF と RLHF の生成品質分析と比較

まとめと個人的な感想

前に書く

论文地址:RLAIF: AI フィードバックによる人間のフィードバックからの強化学習のスケーリング

arxiv でRLAIF の記事を初めて発見したとき、すぐにお気に入りに追加しましたが、さまざまな理由により、深く読む機会がありませんでした。以前のプロジェクトで、著者はオープンソース データを使用して一連の強化学習実験を実施し、RL アルゴリズムが実際にある程度まで改善されたことを確認しました。しかし、プロジェクトが実用化段階に入ると、データアノテーションを行うためのマンパワーが不足するという問題に直面することがよくあります。これにより、プロジェクトの複雑さが増すだけでなく、PPO や DPO などの高度なアルゴリズムを試すことが困難になります。長く反復的な手動の注釈プロセスも無視できない課題です。

RLAIF (AI フィードバックに基づく強化学習) は、これらの問題を完全に解決します。そのため、この記事を再読しました。

RLAIF (AI フィードバックに基づく強化学習) は、次の問題を解決します。

  • 高品質の人間の嗜好ラベルを収集する際のボトルネック問題: 人間のフィードバックに基づく強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の嗜好に合わせるのに非常に効果的ですが、高品質の人間の嗜好ラベルを収集することが重大なボトルネックです。

RLAIF の最大の貢献は次のとおりです。

  • 潜在的な代替手段の提供: RLAIF は、人間に頼るのではなく、既製の LLM を使用して好みのこの研究では、RLAIF とRLHF が改善という点で同様の結果をもたらしたことがわかりました。具体的には、要約タスクの場合、人間の評価者は約 70% の確率で、ベースラインの教師付き微調整モデルよりも RLAIF および RLHF の出力を優先します。
  • AI フィードバックの有効性の実証: RLAIF と RLHF の概要を比較すると、人間は両方に対して同じ好みを示しました。これは、AI フィードバックを使用したトレーニングが人間のフィードバックを使用した場合と同様のパフォーマンスを達成できることを意味し、RLHF のスケーラビリティの問題に対する潜在的な解決策を提供します。

RLAIF の導入により、高価で時間のかかる人間によるラベル収集に依存せず、人間によるフィードバックと同様のパフォーマンスを達成できる、強化学習に対する新しいスケーラブルなアプローチが提供されます。

RLAIF および RLHF のフローチャート

RLAIF対RLHFの結果

  • RLAIF は RLHF と同等のパフォーマンスを備えています。具体的には、人間の評価者は、それぞれ 71% と 73% の確率で、教師あり微調整 (SFT) ベースラインよりも RLAIF 戦略と RLHF 戦略を優先しました。これら 2 つの勝率の間に統計的に有意な差はありません。
  • RLAIF と RLHF によって生成されたコンテンツを直接比較すると、人間は両方を同等に支持します (つまり、勝率 50% )。
  • これらの結果は、RLAIF が人間の注釈に依存せず、魅力的なスケーラビリティを備えた RLHF の実行可能な代替手段であることを示しています。

RLAIFとRLHFの効果の比較

AI による嗜好データのラベル付けの効果を人間によるラベル付けと一致させるにはどうすればよいでしょうか?

位置バイアスへの対処:

LLM は候補の順序によって影響を受ける可能性があります。この位置バイアスを軽減するために、候補の各ペアが 2 回推論され、 2 回目の推論では候補の順序が逆になります次に、2 つの推論の結果が平均されて、最終的な優先度分布が得られますモデルが大きくなるほど、位置の偏りは小さくなります。

場所の偏り

思考連鎖推論

人間の好みとの整合性を高めるために、LLM の COT 機能がプロンプトを通じて刺激されます。ゼロショット プロンプトでは、LLM のアノテーション プロセスの推論がどのようなものであるべきかが示されませんが、いくつかのショットでは、著者はLLM が従うべきいくつか示しています。

COTテンプレート

最良のプロンプトは、 PALM または OPEN AI に基づいたCOT -zero ショットです。

さまざまなプロンプト設定の比較

自己一貫性

連鎖思考プロンプトについては、自己一貫性テクノロジーも試行され、デコード時に温度が 0 より大きく設定され、複数の推論パスがサンプリングされ、各パスの最後に生成された最終回答が平均化されて、連鎖思考推論が改善されまし温度=1 の場合、LLM アノテーション効果は人間との一貫性が低くなります。つまり、温度を 0 から 1 の間に設定する方が良いことを意味します

自己無矛盾性実験

ラベル付けモデルのサイズの影響?

モデルのサイズと整合性の間には強い関係があり、モデルが大きいほど、人間とのラベル付けの好みの一貫性が高くなりますPaLM 2 Large (L) から PaLM 2 Small (S) に移行するとアライメントは -4.2% 低下し、さらに PaLM 2 XS に移行するとさらに -11.1% 低下しました。この傾向は、他の研究で観察されたスケーリングの法則と一致しています。パフォーマンス低下の考えられる理由の 1 つは、小さい LLM での位置バイアスの増加です (付録 A を参照)。この傾向の終焉を見据えると、これらの結果は、 AI ラベラーの規模を拡大すると、より高品質の優先ラベルが生成される可能性があることも示唆しています。

モデルが大きくなるほど、LLM と人間によるアノテーションの間の一貫性が高くなります。

実験の詳細

データ

OpenAI で厳選されたReddit TL;DR (Too Long; Didn't Read ) データセットをフィルタリングしました。TL;DR には、Reddit 上のさまざまなトピック (「サブレディット」とも呼ばれる) をカバーする約 300 万件の投稿が含まれており、元の作成者によって書かれた投稿の抜粋が含まれています。データの高品質を保証するために、OpenAI はデータをさらにフィルタリングし、これには一般の人が理解できるサブレディットのホワイトリストの使用も含まれます。さらに、24 ~ 48 トークンの概要を持つ投稿のみが含まれます。フィルタリングされたデータセットには 123,169 件の投稿が含まれており、そのうちの約 5% が検証セットとして確保されています。データセットの詳細については、元の論文を参照してください。さらに、OpenAI は、フィルタリングされた TL;DR データセットから人間の嗜好データセットを厳選しました。特定の投稿について、異なる戦略から 2 つの要約候補が生成され、タグ付け者はどちらの要約が好ましいかを評価するよう求められました。データセット全体には、約 92k ペアの比較データが含まれています。

LLM アノテーション

AI ラベル付け手法 (ヒント、自己一貫性など) の有効性を評価するために、ヒューマン アノテーターがある要約について別の例よりも自信を持っているものを、TL;DR (長すぎる; 読まなかった) 嗜好データセットから選択しました。より高速な実験反復を可能にするために、データセットのトレーニング分割のランダムな 15% サブセットで AI ラベラー アライメントを評価し、評価用に 2851 個の例を提供します。報酬モデル TL;DR のトレーニングでは、嗜好データセットの完全なトレーニング分割が LLM によってラベル付けされ、信頼スコアに関係なくトレーニングに使用されます。私たちは、好みにラベルを付けるための LLM として PaLM 2 を使用しています (Google et al., 2023)。特に明記されていない限り、最大コンテキスト長が 4096 トークンの大きなモデル サイズを使用します。連鎖思考生成では、最大デコード長を 512 トークンに設定し、サンプリングに温度 T = 0 を使用しました (つまり、貪欲なデコード)。自己無撞着性の実験では、上位 K のサンプリングには温度 T = 1、K = 40 を使用します。

モデルのトレーニング

OpenAI のフィルター処理された TL;DR (長すぎる; 読みませんでした) データセットで、PaLM 2 Extra-Small を使用して SFT モデルをトレーニングします。次に、SFT モデルから報酬モデルを初期化し、OpenAI の TL;DR 人間の嗜好データセットでトレーニングします。セクション 5.1 と表 1 の結果については、PaLM 2 Large を使用して、自己無撞着性を使用せずに OpenAI+COT 0 ショット キューを使用して AI ラベル付きの好みを生成し、完全な好みのデータセットで報酬モデルをトレーニングします。強化学習には、付録 B で説明されている Advantage Actor Critic (A2C) トレーニング戦略を使用します。戦略モデルと価値モデルは両方とも SFT モデルから初期化されます。戦略を展開するための初期状態として、フィルタリングされた Reddit TL;DR データセットを使用します。

上記 2 つの RM モデルの比較

LLM アノテーション付きデータでトレーニングされた RM のパフォーマンスは、数千のサンプルでトレーニングされた後、すぐに安定します。RM は、わずか 128 個のサンプルでトレーニングした場合は約 60% の精度を達成しましたが、その後、わずか 5,000 個のサンプル (完全なデータ セットの約 1/20) でトレーニングした場合は完全なデータ セットでの精度に近づきました。人間の注釈が付けられたデータでトレーニングされた RM と LLM アノテーションでトレーニングされた RM では、同様のスケーリング曲線に従います。1 つの違いは、人間のラベル付き嗜好データでトレーニングされた RM は、トレーニング サンプルの数が増加するにつれて向上し続けているように見えますが、トレーニング サンプルが増えても精度はわずかに向上するだけであることです。この傾向は、AI の好みに基づいてトレーニングされた RM は、人間の好みに基づいてトレーニングされた RM と比較して、トレーニング例の数を増やしてもあまり恩恵を受けない可能性があることを示唆しています。

LLM の RM 標識サンプルとヒト標識サンプルの精度の比較

SFT-RM-RL トレーニングのハイパーパラメータ設定

  • SFT : lr=1e-5 、max_input_length=128、output_length=1024
  • RM : 3 エポック、le=1e-5、batch_size=128
  • RL 温度 = 0.9 で探索を促進します。バッチサイズ = 128、エポック = 8、KL 発散損失に対して β = 0.05 を設定します。

RLAIF と RLHF の生成品質分析と比較

RLAIF と RLHF の比較をより深く理解するために、両方の戦略によって生成された概要を手動で検査しました。多くの場合、2 つの戦略は同様の概要を生成し、それが同様の勝率に反映されました。ただし、場合によっては 2 つの戦略の間にいくつかの違いがあることもわかりました。

  1. 幻覚の問題: RLAIF は RLHF よりも幻覚を起こしにくいようです。RLHF における幻覚は、多くの場合もっともらしいですが、原文と一致しませんたとえば、RLHF の抄録には著者が 20 歳であると記載されている場合がありますが、元の記事ではこれについて言及も暗示もありません。
  2. 一貫性と文法の問題: RLAIF は、RLHF よりも一貫性や文法に欠ける要約を作成することがありますたとえば、RLAIF の要約では連続した文が生成される場合があります。

各戦略には特定の傾向がありますが、どちらも高品質の要約を生成し、比較的類似しています。

まとめと個人的な感想

RLAIF の手法は、大規模な言語モデルの機能を利用してトレーニング データを生成し特にラベル付けの人手が不足している場合や開発時間が厳しい場合に、強化学習に対する興味深い新しいアプローチを提供します。このアプローチの潜在的な利点は、大規模な手動アノテーションの必要性が減り、それによってモデルのトレーニングと展開が加速される可能性があることです。注意が必要な問題もいくつかあります。

  1. データ品質: 大規模言語モデル (LLM) は多くのタスクで良好に機能しますが、生成されるデータの品質は依然として制限される可能性があります。たとえば、LLM は、元のコンテンツと一致しない出力を生成したり、誤った情報を含んだりする可能性があります。したがって、AI によって生成された嗜好データの品質を確保することが重要です。
  2. 計算コスト: RLAIF メソッドは手動によるアノテーションの必要性を減らす可能性がありますが、LLM を使用したデータの生成には依然として大量の計算リソースが必要になる可能性があります。また、設定データに注釈を付けるには、注釈に gpt3.5 または gpt4 インターフェイスを使用するなど、非常に大規模で非常に効果的な LLM が必要になる場合があります。

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/133095131