LLM 大規模モデル学習の棄却サンプリング Trick シリーズ

From: NLP ワークステーション

NLP グループに入る —> NLP 交換グループに参加する

今日は、dikw ボス (@知识dikw) の LLM モデルによるサンプリングの拒否に関する記事をお届けします。

知乎:https://zhuanlan.zhihu.com/p/649731916

学び、理解したい場合は、この記事を読んでください。

  • 拒絶サンプリングとは何ですか?

  • RFT を使用する llm トレーニングはどれですか?

  • なぜ拒絶サンプリングが必要なのでしょうか?

  • 拒絶サンプリングはどの程度の改善をもたらしますか?

  • 拒絶サンプリングと強化学習の間にはどのような関係があるのでしょうか?

  • RFTとSFTの関係は?

  • RFT はなぜ改善をもたらすことができるのでしょうか?

背景紹介

拒絶サンプリングは、代理分布を利用して複雑な (「サンプリングが困難な」) 分布からデータをサンプリングするためのモンテカルロ アルゴリズムです。

モンテカルロとは何ですか? メソッド/アルゴリズムが問題を解決するために乱数を使用する場合、それはモンテカルロ法として分類されます。拒絶サンプリングのコンテキストでは、モンテカルロ (ランダム性とも呼ばれる) は、アルゴリズムの基準を強制するのに役立ちます。サンプリングに関して、ほぼすべてのモンテカルロ法に存在する中心的な考え方は、ターゲットの分布関数からサンプリングできない場合は、別の分布関数 (したがって提案関数と呼ばれます) を使用するというものです。f267ff87614a3f0515a6d28b4ef4b24e.png上図はモンテカルロアルゴリズムを用いて、長方形上での針投げ実験を通じて円の面積と「π値」 、そして円の内側に落ちる頻度を推定しています。

ただし、サンプリング手順は「目標分布に従う」必要があります。「ターゲット分布」に従うということは、発生する可能性の高さに応じてサンプルの数を取得する必要があることを意味します。簡単に言えば、確率の高い領域にはより多くのサンプルが必要です。

これは、提案関数を使用する場合、サンプリング手順がターゲットの分布関数に従っていることを確認するために必要な修正を導入する必要があることも意味します。この「改訂された」側面は、受け入れられた標準の形になります。

この方法の背後にある主なアイデアは、分布 p(x) からサンプリングしようとしている場合、別のユーティリティ分布 q(x) を使用して、p(x) からのサンプリングを支援するというものです。唯一の制限は、一部の M>1 では p(x) < Mq(x) であることです。これは主に、p(x) の形式により直接サンプリングすることが困難であるが、任意の点 x で評価できる場合に使用されます。

アルゴリズムの内訳は次のとおりです。

  1. q(x) から x をサンプリングします。

  2. U(0, Mq(x)) から y をサンプリングします (一様分布)。

  3. y < p(x) の場合は、x を p(x) のサンプルとして受け入れます。それ以外の場合は、ステップ 1 に戻ります。

このアプローチは、一様分布が Mq(x) によって提供される「包絡線」を p(x) の確率密度関数にスケールするのに役立つため機能します。別の見方としては、点 x0 の確率をサンプリングするというものがあります。これは、g から x0 をサンプリングする確率、つまり p(x0) と Mq(x0) の比によって単純に与えられる、許容される回数の割合に比例します。23d66ede7d2163a70c855528abbd55c9.png上記では、q(x) のサンプル (この例では x=2) を見つけたら、Mq(x) の高さに等しい範囲の一様分布からサンプリングします。ターゲットの確率密度関数の高さの範囲内にある場合はそれを受け入れます (緑色で表示)、そうでない場合は拒否します。

ここでの生成モデルの背景と組み合わせると、ここで言及した拒否サンプリングの微調整は通常、微調整されたモデル (おそらく SFT 微調整や PPO アルゴリズムの微調整など) に基づいて K サンプル サンプリングを実行することを指します。 )。次に、モデル サンプリングによって生成されたサンプルをフィルタリングして、ターゲットの分布を満たすサンプルを選択し、モデルを微調整する拒否関数または受け入れ関数を用意します。

関連研究

リジェクション サンプリングは、シンプルかつ効果的な微調整拡張手法であり、LLM を人間の好みに合わせるためにも使用されます。

WebGPT: 人間のフィードバックによるブラウザ支援の質問応答

拒否サンプリング (n 番目のベスト)。BC モデルまたは RL モデル (指定しない場合は BC モデルを使用) から固定数の回答 (4、16、または 64) をサンプリングし、報酬モデルによって最も高くランク付けされた回答を選択しました。これを報酬モデルに対して最適化する代替方法として使用しました。追加のトレーニングは必要ありませんが、代わりにより多くの推論時間の計算を使用します。73d99339757a7ad3782af724860eb194.png拒絶サンプリングと RL の両方が同じ報酬モデルに対して最適化されているにもかかわらず、拒絶サンプリングが RL よりも優れている理由はいくつか考えられます。

  • 1.単により多くの推論時間の計算を利用するために、多くの応答試行を行うと役立つ場合があります。

  • 2.環境は予測不可能です。拒否サンプリングを使用すると、モデルはさらに多くの Web サイトへのアクセスを試み、発見した情報を後知恵で評価することができます。

  • 3. 報酬モデルは主に BC および拒否サンプリング ポリシーから収集されたデータに基づいてトレーニングされたため、RL よりも拒否サンプリングによる過剰最適化に対してより堅牢になった可能性があります。

  • 4. 報酬モデルは主に BC および拒否サンプリング ポリシーから収集されたデータに基づいてトレーニングされたため、RL よりも拒否サンプリングによる過剰最適化に対してより堅牢になった可能性があります。

簡単に言えば、webgpt は推論フェーズでのみ拒否サンプリングを使用し、微調整には拒否サンプリングを使用しません。次に、著者は RL と拒否サンプリングの効果を比較し、拒否サンプリングの方が優れていることを発見し、いくつかの説明をしました。つまり、拒否サンプリングは RL アルゴリズムよりもパラメーター調整を必要とせず、より堅牢であるという点で同意されています。

人間のフィードバックからの強化学習による、有益で無害なアシスタントのトレーニング

52B 優先モデルを使用した拒否サンプリング (RS)。サンプルは 52B コンテキスト蒸留 LM から生成されました。この場合、サンプル数 k はパラメーターですが、ほとんどの場合、k = 16 が使用されます。

また、トレーニング中にオンライン モデルのパフォーマンスをテストし (図 15)、さまざまなレベルの拒否サンプリングを比較します。c8f538c4d67cdba92a209d266e946f32.png図 36 では、k = 1、4、16、64 の、拒否サンプリングを使用した 52B コンテキスト抽出モデル (純粋な有用性でトレーニングされた 52B 選好モデルを利用) の有用性 Elo スコアを示しており、k の値が大きいほどパフォーマンスが明らかに優れていることが示されています。ここで説明するコンテキスト抽出モデルと選好モデルは、研究の初期段階で、この論文の他の場所で説明したものとは異なるデータセットと設定を使用してトレーニングされたため、非常に大まかかつヒューリスティックではあるものの、他の Elo 結果と直接比較できないことに注意してください。 、私たちのオンライン モデルは、k = 64 の棄却サンプリングとほぼ同等かそれ以上のパフォーマンスを示しているようです。k = 64 の棄却サンプリングは DKL = log(64) ≈ 4.2 に対応することに注意してください。404b35c4d0674f90993ed74cacea300f.png

要約すると、推論段階では棄却サンプリングが依然として使用されており、K 値が大きいほどサンプリング時の効果が高く、オンライン RLHF モデルは棄却サンプリングよりもパフォーマンスが優れているようです。

合成フィードバックによる大規模な言語モデルの調整

重要な追加コンポーネントは、前段階の合成 RM を活用して、生成された出力に対する拒否サンプリングによるモデル間の会話の品質を保証することです (Ouyang et al., 2022)。LLaMA-7B を合成デモンストレーション (SFT) でトレーニングし、合成 RM からの報酬、つまり合成フィードバックからの強化学習 (RLSF) を使用してモデルをさらに最適化します。

アシスタントからのより整合性の高い応答を確実にするために、最初の段階でトレーニングされた合成 RM をループに含めること、つまり報酬モデルガイド付きセルフプレイ (RMSP) を含めることをお勧めします。このセットアップでは、アシスタント モデル、LLaMA-30B- Faithful-3shot では、最初に特定の会話コンテキストに対して N 個の応答をサンプリングします。次に、RM が N 個の応答をスコアリングし、最もスコアの高い応答がシミュレーションの最終応答として選択されます。つまり、RM は拒否サンプリング (ベストオブ) を実行します。 -N サンプリング) (nakano et al., 2021; Ouyang et al., 2022). その他の手順はセルフプレイと同じです. 例については図 8 を参照してください. 前の 2 つの記事との違いは、1764ee7e0a1b9f035e651c1ebd933c97.png拒否サンプリングされたデータは微調整され、ICL を使用してプロンプトに対するさまざまなレベルのモデルの応答が生成されます。その後、大規模モデルの応答効果が小規模モデルの応答効果より優れていると想定され、推奨されるデータは RM モデルを取得するためにトレーニングされます。次に、拒否サンプリングを使用し、RM モデルを使用して最高スコアの応答を選択してトレーニング セットを取得し、SFT を使用してモデルをトレーニングします。

Llama 2: オープンな基盤と微調整されたチャット モデル

9c7e4e20fbfb04c8c45c571d853d543e.pngこのプロセスは、公開されているオンライン ソースを使用した Llama 2 の事前トレーニングから始まります。これに続いて、監視付き微調整を適用して Llama 2-Chat の初期バージョンを作成します。その後、モデルはヒューマン フィードバックによる強化学習 (RLHF) 手法、特に拒否サンプリングと近接ポリシー最適化 (PPO) を使用して反復的に改良されます。RLHF ステージ全体を通じて、モデルの強化と並行して反復的な報酬モデリング データを蓄積することは、報酬モデルが配布内に留まるようにするために非常に重要です。8abbe262d4dc85e4c9c0769bdc6c5554.pngリジェクションサンプリングの微調整。Bai らと同様に、モデルから K 個の出力をサンプリングし、報酬を伴う最良の候補を選択します。(2022b)。LLM に対する同じ再ランキング戦略は Deng らでも提案されています。(2019)、報酬はエネルギー関数として見られます。ここではさらに一歩進んで、選択した出力を勾配の更新に使用します。各プロンプトについて、最高の報酬スコアを獲得したサンプルが新しいゴールド スタンダードとみなされます。シャロムらと同様。(2020a)、その後、ランク付けされたサンプルの新しいセットに基づいてモデルを微調整し、報酬を強化します。

2 つの RL アルゴリズムの主な違いは次のとおりです。

  • 幅 — 拒否サンプリングでは、モデルは特定のプロンプトに対して K 個のサンプルを探索しますが、PPO では 1 世代のみが実行されます。

  • 深さ — PPO では、ステップ t でのトレーニング中に、サンプルは、前のステップの勾配更新後に更新されたモデル ポリシー fromt − 1 の関数になります。拒否サンプリングの微調整では、SFT と同様の微調整を適用する前に、モデルの初期ポリシーを指定してすべての出力をサンプリングして新しいデータセットを収集します。ただし、反復的なモデル更新を適用したため、2 つの RL アルゴリズム間の基本的な違いはそれほど顕著ではありません。

使用される RLHF ベンチマークを要約すると、PPO と拒否サンプリング (RS) の微調整 (ベストオブ N サンプルと同様) です。PPO は、ポリシー RL アルゴリズムで最も人気があります (試行錯誤学習であると言えます)。ここで述べたように、さらに一歩進んで、勾配更新に選択した出力を使用します。各プロンプトについて、最高の報酬スコアを取得したサンプルが新しいゴールド スタンダードとみなされます。Scialom et al. (2020a) と同様、We thenランク付けされたサンプルの新しいセットに基づいてモデルを微調整し、報酬を強化します。

これは、llama が rm を使用して、拒否サンプリングによって生成されたサンプルに対して SFT トレーニングを実行し、ポリシー モデルの勾配を更新していることを示しています。同時に、拒否サンプリングによって生成されたサンプルをゴールドとして使用して、古いデータベースで RM モデルを再トレーニングしています。 rmモデルの報酬を強化するためのチェックポイント。したがって、ここでの拒絶サンプリングの微調整は、SFT モデルと RM モデルを同時に微調整することであると著者は考えています。

大規模言語モデルを使用した数学的推論の学習におけるスケーリング関係

人的努力なしでモデルのパフォーマンスを向上させるためにより多くのデータ サンプルを増強するには、拒否サンプリング微調整 (RFT) を適用することを提案します。RFT は教師ありモデルを使用して、正しい推論パスを強化された微調整データセットとして生成および収集します。より明確な推論パスを含む拡張サンプルを使用すると、RFT により LLM の数学的推論パフォーマンスがさらに向上することがわかりました。また、RFT はパフォーマンスの低い LLM にさらなる改善をもたらすこともわかりました。さらに、複数のモデルからの拒否サンプルを組み合わせて、LLaMA-7B の精度を 49.3% に高め、教師あり微調整 (SFT) 精度の 35.9% を大幅に上回りました79ebc775513315455b8611c6192ad391.png

一般に、人間の努力を必要とせずにデータ サンプルを追加してモデルのパフォーマンスを向上させるには、リジェクション サンプリング微調整 (RFT) を適用することを提案します。RFT は教師ありモデルを使用して、正しい推論パスを生成し、強化された微調整データセットとして収集します。LLM 上の RFT は、より多様な推論パスを含む拡張サンプルを使用して数学的推論のパフォーマンスを向上させることがわかりました。また、RFT がパフォーマンスの低い LLM にさらなる改善をもたらすこともわかりました。さらに、複数のモデルから不合格となったサンプルを組み合わせて、LLAMA-7B の精度を 49.3% に高め、教師あり微調整 (SFT) の精度 35.9% を大幅に上回りました。なお、上記で使用した棄却サンプリングを行って最良の応答を選択するRMモデルとは異なり、ここで直接使用するモデル応答は、答えと正解を比較し、正しい推論結果を選択します。

RAFT: 生成基盤モデルの調整に対する報酬の高いファインチューニング

ただし、RL アルゴリズムに関連する非効率性と不安定性は、生成モデルの調整を成功させる上で大きな障害となることが多く、より堅牢で合理化されたアプローチの開発が必要です。この目的を達成するために、生成モデルをより効果的に調整するように設計された新しいフレームワークである Reward rAnked FineTuning (RAFT) を導入します。報酬モデルと十分な数のサンプルを利用することで、私たちのアプローチは高品質のサンプルを選択し、望ましくない動作を示すサンプルを破棄し、その後ストリーミング データセットを組み立てます。このデータセットは生成モデルを調整するための基礎として機能し、オフラインとオンラインの両方の設定で使用できます。特に、RAFT 内のサンプル生成プロセスにはグラディエントがなく、ブラック ボックス ジェネレーターと互換性があります。膨大な実験を経て、4640fb70e8663f343cd5d3f9e775849e.pngd4299f82a17f49a3cc51b3431bdd3ce7.png

まとめと考察

拒否サンプリングでは、SFT モデルによって出力された結果の分布が拒否/受け入れ関数 (ここでは報酬モデルまたはヒューリスティック ルール) によってフィルター処理され、高品質の回答の分布が得られます。確定申告のパフォーマンスが向上しました。拒絶サンプリングの場合、サンプル K が大きいほど良いです。同時に、RLHF フレームワークでは、拒否サンプリング微調整の使用を使用して SFT モデルの効果を更新できます。ppo アルゴリズムの場合、多くの場合、古い戦略との間の分布ギャップを確保する必要があります。新しい戦略は比較的小さいため、PPO によって開始された SFT モデルがここで改善されます。この効果は、PPO アルゴリズム自体にとっても非常に重要です。第 2 に、拒否サンプリングのサンプル微調整を使用して、古い報酬モデルを反復することができ、モデルの報酬を強化します。これは、PPO の最終的な効果と反復性を向上させるためにも非常に重要です。同時に、COT 機能の場合、拒絶サンプリングはモデル学習のためのより多くの推論パスを提供します。これはモデルにとっても非常に重要です。


NLP グループに入る —> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132419439