最も強力なオープンソースの大規模モデル? ラマ2論文の解釈


   Llama モデルは、AI コミュニティで最も強力なオープンソース モデルと常に考えられており、Alpaca モデル、BELLEE モデル、Guanaco モデル、Vicuna など、国内外の多くのオープンソース モデルがこれに基づいてトレーニング/開発されています。モデル。ただし、オープンソース契約の問題により、Llama モデルを無料で商用利用することはできません。先週, Meta AI チームは、最新の大規模モデル Llama2 をオープンソース化しました。その機能は ChatGPT に匹敵し、商用利用は無料です。オープンソースのアドレスはここにあり、サンプルコードはここにあります。これは、オープンソースのオープンソースを再び 促進 ます 。大型モデル。Meta AI チームが Llama 2 の事前トレーニング モデルをオープンソース化しただけでなく、Llama 2 モデルのトレーニング プロセスと微調整プロセスを詳しく説明した Llama 2 に関する論文もリリースしたことは言及する価値があります。 Llama 2 の論文とそこから学ぶ Llama 2 モデルの微調整の中心となるメソッド。

導入

  詳細な作業を紹介する前に、Meta AI チームはまず、図 1 に示すように、Llama 2 モデルの機能を他のオープンソース モデルおよび Bytom モデルと比較しました。Meta AI チームのテストでは、Llama 2 モデルはモデル機能の点で ChatGPT に匹敵し、モデル機能と包括的なセキュリティ機能の点では Llama 2 の方が優れていることがわかります。

ここに画像の説明を挿入します
  論文では、Meta AIが大型モデルの実用性と安全性をテスト・比較した結果、今回リリースされたLlama 2が現時点でのオープンソースモデルの中で最良のモデルであり、無償で商用化可能であると紹介している。今回リリースされたオープンソースモデルは2シリーズあります。

  • Llama 2 シリーズ モデルは、Llama 1 モデルの更新バージョンとして、モデルのトレーニングにさらに多くの新しいオープン ソース データを使用します。コーパスは 40% 増加し、モデルのテキストの長さは 2 倍に拡張されました。 Llama 1 のそれと、グループ化されたクエリ アテンション メソッド [xxx] が使用されます。この一連のオープンソース モデルには、13B パラメーター バージョンと 70B パラメーター バージョンが含まれており、同時に Meta AI チームは 34B パラメーター バージョンもトレーニングしましたが、オープンソース化されていません。
  • Llama 2-Chat シリーズ モデル, このシリーズのモデルは、Llama 2 シリーズのモデルをベースにしており、対話タスク用にモデルを微調整しています。このシリーズのオープン ソース モデルには、7B パラメータ、13B パラメータ、および 70B パラメータのバージョンが含まれます。

  Llama 2 モデルのトレーニング作業は主に、事前トレーニング、微調整、ヒューマン フィードバックの 3 つの部分に分かれており、トレーニング プロセス全体を図 2 に示します。このうち、事前トレーニング モジュールは主にモデルの事前トレーニングを実行し、微調整モジュールはヒューマン フィードバックに基づく強化学習プロセス (RLHF、ヒューマン フィードバックからの強化学習) に焦点を当てます。 GPT で使用された近接ポリシー最適化 (PPO) アルゴリズムは、一連の記事で使用されており、もう 1 つは拒否サンプリング微調整戦略であり、ヒューマン フィードバック モジュールは主にモデルの報酬モデル (報酬モデル) をトレーニングします。 2 つの報酬モデル (安全報酬モデルと役立つ報酬モデル) は個別にトレーニングされました。
ここに画像の説明を挿入します

モデルの事前トレーニング

トレーニング前の設定

  Llama 2 モデルは、モデル構造と事前トレーニング設定の点で Llama 1 モデルとほぼ一致しています。Llama 2 モデルは、RMSNorm が使用される標準的なトランスフォーマー構造に加え、SwiGLU アクティベーション関数と RoPE 埋め込みを使用します。方法です。Llama 1 のトレーニングと比較した Llama 2 トレーニングの主な特徴は次のとおりです:
   1) より多くのデータ クリーニング作業を完了する
   2) データ混合戦略を更新する
   3) トレーニング データを追加する
   4) テキスト長の変換を実現する 5
   ) グループ化されたクエリ アテンション(GQA) メソッドが使用されています。
  ラマ 2 モデルとラマ 1 モデルの事前トレーニング設定の比較を以下の表に示します。記事の付録 A.2.1 には、関連する比較実験も記載されています
ここに画像の説明を挿入します
  。 Llama 2 モデルの設定 トレーニング中、メタ AI は真新しい公開データ (メタ製品のユーザー データが含まれていない) を使用し、データ内の個人情報とプライバシー データ (合計 2 兆トークン) をフィルタリングして削除しました。使用されるトークナイザーは Llama 1 と同じで、辞書サイズは 32K、事前トレーニング プロセスの主なハイパーパラメーター設定は次のとおりです。

ハイパーパラメータ 価値
AdamW オプティマイザー β_1=0.9、β_2=0.95、eps= 10^(-5)
学習率スケジュール 余弦
準備し始める 2000年
体重の減少 0.1
グラデーションクリッピング 1.0

  この論文では、以下の図に示すように、Llama 2 モデルの事前トレーニング プロセスの損失統計も提供します。モデルのパラメータが増加するにつれて、モデルのトレーニング効果がより顕著になることがわかります。この傾向は GPT シリーズの論文でも紹介されています。トレーニング データが増加すると、モデルのトレーニング効果がより重要になります。トレーニング損失も減少傾向を示します。つまり、より多くの事前トレーニング データを使用すると、モデルの事前トレーニング効果が向上する可能性があります。
ここに画像の説明を挿入します

ハードウェア リソースと炭素排出量

  Meta AI は、Llama 2 をトレーニングするときに Meta のスーパーコンピューター クラスターを使用します。これらのクラスターにはすべて NVIDIA A100 グラフィックス カードが搭載されています。低炭素計画に応じて、この論文では、以下の図に示すように、さまざまなモデルの事前トレーニングに必要な GPU の計算時間、電力、炭素排出量もリストされています。この統計表によれば、事前トレーニング時間に基づいて、Llama 2 モデルの事前トレーニングに使用される GPU の数を推定することもできます。

ここに画像の説明を挿入します

モデルの評価

  ラマ2の事前トレーニングが完了した後、論文は、ラマ1、ラマ2(事前トレーニングバージョン)の内部評価データを対象に、モデルのコーディング能力、推論能力、読解能力、数学的能力などの比較テストを実施しました。 )、MPT、および Falcon は、次の図に示すとおりです。比較グラフから、同じパラメータの大きさの下で、事前トレーニングを完了した後の Llama 2 モデルのさまざまな機能が Llama 1、MPT、および Falcon よりも優れていることがわかります。
ここに画像の説明を挿入します
  前述のオープンソース モデルとの比較に加えて、この文書では、次の図に示すように、いくつかのクローズド ソース モデルとのテスト比較も提供しています。事前トレーニングされた Llama 2 モデルの複数のスコアは、これらのクローズドソース モデルのスコアよりも低いですが、その差は比較的小さいことがわかります。もちろん、これはトレーニング済みの Llama 2 モデル (つまり、オープンソースの Llama 2 シリーズ) のパフォーマンスにすぎず、その後の微調整作業はまだ行われていません。

ここに画像の説明を挿入します

モデルの微調整

  Llama 2 の微調整について、Meta AI は、微調整された Llama 2 モデルを Llama 2-Chat と名付けました。微調整プロセスには、命令微調整と RLHF プロセスが含まれます。モデルの微調整については 3 つのセクションに分かれており、第 1 セクションでは主に「教師あり微調整」について紹介し、第 2 セクションでは主に「報酬モデル」と「RLHF」プロセスのトレーニングについて説明します。 3 番目のセクションでは、ゴースト アテンション (GAtt) メソッドの導入に焦点を当てます。

監視付き微調整

  著者はまず、教師付き微調整の最初のステップで Llama 1 と同じ微調整方法と微調整命令セットを使用し、その後、より高品質のデータを使用して再度微調整しました。微調整プロセス中に、高品質のデータ セットがモデルのパフォーマンスを大幅に向上させることができることに著者は気づきました。そのため、Meta AI チームはデータの高品質を確保するために多くの作業を行いました。合計 27,540 個このプロセスで高品質のデータが収集されました (メタ製品のユーザー データは含まれません)。
微調整の詳細: 教師付き微調整プロセス中に、各サンプル データにはプロンプトと回答が含まれます。モデルのテキストの長さが一貫していることを確認するために、各データのプロンプトと回答は結合されます。特別なシンボルを付けてモデルに渡しましたが、プロセス全体は 2 エポックしか続きませんでした。

ヒューマンフィードバックによる強化学習 (RLHF)

  RLHF はトレーニング プロセスでもあり、このプロセスは、人間/研究者が望む/好む答えをより与える傾向にある微調整モデルを作成することです。著者は何人かのアノテーターに、モデルによって生成された回答に注釈を付け、お気に入りの回答を選択し、これらのアノテーターがより満足した回答を報酬モデルのトレーニングに使用するように依頼しました。

人間の嗜好データの収集

  RLHF 段階でのデータ収集では、著者はまずアノテーターにプロンプ​​ト/質問を書くように依頼し、次に指定された判断ルールに従って 2 つのモデルによって生成された回答の 1 つを選択しました。生成される応答の多様性を確保するために、2 つの応答は異なるモデルから生成されます (温度パラメーターが変更されます)。さらに、著者はアノテーターに、選択した回答に対する好みを示すよう求めました: 大幅に優れている、優れている、わずかに優れている、または無視できるほど優れている/不明。
  さらに、データセットの使いやすさとセキュリティも考慮し、的を絞った処理を実行しました。このうち、手動で注釈が付けられたデータは週に 1 回収集され、収集されたデータで報酬モデルがトレーニングされるたびに、ラマ 2 チャット モデルも 1 回更新され、新しいバージョンのラマ 2 チャットが使用されます。データには手動で注釈が付けられ、報酬モデルは継続的に更新されます。この反復により、新しい報酬モデルがラマ 2 チャット モデルと同期して更新されることが保証されます。
  以下の表では、著者が収集したデータセットを複数のオープンソースの人間の嗜好データセットと比較しています。比較結果から、著者が収集したデータセットのほうが会話ターンが多く、平均コンテンツが長いことがわかります。

ここに画像の説明を挿入します

報酬モデル

  RLHF に関して、著者らは 2 つの報酬モデルをトレーニングしました。1 つは「ユーザビリティ」設定のデータセットを使用してユーザビリティに関して最適化され、もう 1 つは「セキュリティ」設定のデータセットを使用してセキュリティに関して最適化されています。報酬モデルの場合、著者は、報酬モデルがラマ 2 チャット モデルのターゲット タスクも理解できることを保証するために、事前にトレーニングされたラマ 2 チャット モデルのチェックポイントもトレーニングに使用します。このアプローチの利点は、いくつかの予期せぬバイアス状況を回避できることです。たとえば、2 つのモデル間に情報の不一致があり、モデルに選好錯覚が生じる可能性があります (つまり、モデルは、次のように報酬学習を実行していると考えています)。人間のデータの好みに左右されますが、実際には (上記ではありませんが)、報酬モデルと Llama 2-Chat モデルの違いは、モデル出力のラベル予測の分類ヘッドが、ラベル予測の出力に使用される回帰ヘッドに置き換えられることです。スカラー報酬。
  報酬モデルのトレーニング目標 (損失関数) は次のとおりです。
ここに画像の説明を挿入します

  このうち、y c は人間の好みに近い回答を表し、y rは人間の好みに比較的適合しない回答を表し、r θ (x, y c ) はモデルパラメータセットが θ のときの出力がx を入力して得られる は y cと一致します。 r θ (x,y r )のスカラー分数は同じです。前述したように、報酬モデルをトレーニングするためのデータには手動でラベルを付ける必要があります (大幅に優れている、優れている、わずかに優れている、または無視できるほど優れている/不明)。損失が異なるラベル間の差異を反映できるようにするために、著者は損失関数に m (r) 離散関数を追加しました。これにより、報酬モデルの精度がさらに向上します (論文は表 28 と付録 A.3.3 にあります)。 (説明は)
ここに画像の説明を挿入します
  報酬モデルのトレーニング パラメーターは論文で簡単に紹介されています。AdamW オプティマイザーも使用すると、70B Llama 2-Chat モデルの最大学習率は 5×10 -6 で、他のモデルの最大学習率は 5×10 -6 です。モデルは 1×10 -5、学習率スケジュールはコサイン、ウォームアップはトレーニング ステップの総数の 3% に設定され、最小値は 5、バッチ サイズは 512 です。
  報酬モデルのトレーニングが完了した後、以下の表に示すように、作成者はトレーニング済みの報酬モデルをテストし、他の公開報酬モデルと比較しました。Llama 2-Chat の報酬モデルは使いやすさとセキュリティの点で非常に優れており、全体的に他のモデルを完全に上回っていることがわかります。
ここに画像の説明を挿入します
  他の報酬モデルとの比較に加えて、著者は、以下の図に示すように、報酬モデルの学習プロセス データの統計も作成しました。著者は、モデルのパラメーターが増加するにつれて、報酬モデルの能力が上昇傾向を示すことを発見しました (これは、事前トレーニング プロセスのデータが示す傾向と一致しています)。同時に、トレーニング データが増加するにつれて、報酬モデルの能力も上昇傾向を示しています。著者は、RLHF が大規模モデルの最終的な能力において最も重要なステップの 1 つであると信じています。報酬モデルの効果を改善することは、大規模モデルの最終的な能力に直接大幅な改善をもたらします (次のバージョンでは、著者はさらに最適化する可能性があります)報酬モデル)。
ここに画像の説明を挿入します

反復的な微調整プロセス

  前に述べたように、報酬モデルのトレーニングとラマ 2 チャット モデルのトレーニングは反復的かつ同時に行われます。著者は、RLHF で大規模なモデルの複数のバージョン (RLHF-V1、RLHF-V2、…、RLHF と呼ばれます) をトレーニングしました。 V5 では、プロセス全体で 2 つのアルゴリズムを使用して大規模モデルを更新します。

  • 現在最も一般的な RLHF アルゴリズムの 1 つである近接ポリシー最適化 (PPO) アルゴリズムは、OpenAI チームによって提案され、GPT 一連の作業に適用され、非常に良好な結果を示しています。
  • リジェクション サンプリングの微調整 (リジェクション サンプリング) メソッドでは、プロンプトが入力されると、前のモデル (この反復でのトレーニング前のモデル) から最良の K 個の出力がサンプリングされ、最新の報酬モデルを使用してこれらの出力が比較されます。スコアリングは次のとおりです。実行され、最も高いスコアを持つ出力がモデル パラメーターの更新に選択されます。

  著者は RLHF (V4) よりも前に RLHF でリジェクション サンプリングを使用していましたが、その後はリジェクション サンプリングと PPO を使用して RLHF プロセスを完了したことに注意してください。また、著者は、70B の最大モデルである llama-chat の微調整プロセスでのみリジェクション サンプリングを使用し、他の小規模モデルは、大規模モデルのリジェクション サンプリング データを微調整に使用しました。小型モデルを抽出する優れた機能を備えています。

マルチターン対話制御

  対話タスクでは、一部の指示を複数回の対話で使用する必要がある場合がありますが、著者はオリジナルの RLHF で、複数回の対話の後、モデルが対話の開始時の指示を忘れることを発見しました。この問題を解決するために、著者は、複数回の対話でモデルが知識に焦点を当てるのに役立つモデルのトレーニング トリックであるゴースト アテンション (GAtt) 法を提案しました。その効果は図に示されています。

ここに画像の説明を挿入します
  ゴースト アテンション ( GAtt ) メソッドは、元のマルチラウンド ダイアログに命令を追加し、元のダイアログを [u 1 ,a 1 ,…,u n ,an ]に変更します(u 1はユーザーの最初の入力ラウンドを表し、 a 1 は対応する 1 ラウンド目の回答を表し、u 2 は2 ラウンド目のユーザー入力を表し、以下同様) [inst+u 1 ,a 1 ' ,…,inst+u n ,a n ' ] になります。このメソッドのアイデアは、モデルを微調整するために、より焦点を絞ったデータ セットを生成することです。たとえば、元のデータ セットは [u 1 ,a 1 ,… , u n , a n ]であり、作成者は次の値を取得します。命令 [inst+u 1 ,a 1 ' ,…,inst+u n ,a n ' ] を追加して新しいデータセットを作成し、2 つの [inst+u 1 ,a 1 ] の混合データを使用します。',u 2 ,a 2 ' ,...,u n ,a n ' ] を使用してモデルを微調整することで、複数回の対話ラウンドでモデルが常に指示に焦点を当て続けることができます。文の不一致の問題を回避するために、トレーニング プロセス中、プロンプトの最初のラウンドのみが保持され、中間ラウンドの損失は 0 に設定されます。著者は RLHF 段階の開始時に GAtt 法を使用せず、モデルが複数ラウンドの対話の制御を強化できるようにするために、RLHF V3 以降にのみ GAtt 法を使用したことに注意してください。

RLHFの結果

  RLHF後のモデル効果を評価するために、著者はLlama 2-Chatモデル、一部のオープンソースモデル、およびクローズドソースモデルの効果を比較し、手動評価を使用して各モデルの回答をスコア化しました。全体的な比較結果を示します。下の図にあります。Llama 2-Chat モデルの全体的なテスト結果は他のオープンソース モデルよりも優れており、基本的に ChatGPT と同等であることがわかります。

ここに画像の説明を挿入します

模範解答の安全性

  モデルの回答のセキュリティを確保するために、著者は主に次のような多くの作業も行いました。
   (1) 著者はデータ収集時に人間の安全保障の好みに従ってデータを収集しました。これにより、RLHF より前にモデルを生成できるようになりました。人間の安全意識に従う傾向のある回答。
  (2) RLHF 段階では、セキュリティ報酬モデルが個別にトレーニングされるため、モデルをさらに微調整する際に、より安全な回答を出力する方向にモデルを偏らせることができます。
  (3) RLHF 段階でコンテキスト蒸留法を使用します。これには、「あなたは安全で責任あるアシスタントです」という追加のプロンプトを追加して安全性を優先した質問の回答を生成し、追加のプロンプトなしでこれらの質問と、対応して生成された安全な回答を使用してモデルを微調整することが含まれます。
  さらに、著者らは「レッド チーム」と呼ばれる一連のプロアクティブなセキュリティ テストを実施しました。これらのセキュリティ テストでは、テスターがモデルを使用してさまざまな分野でセキュリティの質問と回答を実施し、質問と回答の結果がフィードバックされて、モデルの回答のセキュリティがさらに最適化されます。その中には、ネットワークセキュリティ、世論、法律、政策、人権、倫理などさまざまな分野の専門家を含む350名を超えるセキュリティテスターがおり、対象となる問題も社会経済、ジェンダー、社会問題など豊富です。人種。
  この論文では、以下の図に示すように、Llama 2 チャット モデルの質問と回答のセキュリティを評価し、いくつかのオープン ソース モデルおよびクローズド ソース モデルと比較しています。模範解答のセキュリティに関しては、Llama 2-Chat が他のオープンソース モデルよりもはるかに優れており、モデルの一部のバージョンは ChatGPT よりも優れていることがわかります。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/weixin_39561364/article/details/131939857