すでに Microsoft Azure 上にあり、間もなく AWS にも登場する予定です。Hugging Face。
一夜にして大型モデルのパターンは再び大きく変わった。
Llama は、おそらく AI コミュニティで最も強力なオープンソースの大規模モデルです。ただし、オープンソース契約のため、商用利用は無料ではありません。
本日、Meta はついに待望の無料商用版 Llama 2 をリリースしました。
今回Metaがリリースした Llama 2モデルシリーズには、70億、130億、700億の3つのパラメータバリエーションが含まれています。さらに、340 億のパラメーター バリアントがトレーニングされましたが、リリースされておらず、技術レポートでのみ言及されています。
レポートによると、Llama 1 と比較して、Llama 2 はトレーニング データが 40% 増加し、コンテキストの長さが 2 倍になり、グループ クエリ アテンション メカニズムが採用されています。具体的には、Llama 2 事前トレーニング モデルは 2 兆個のトークン でトレーニングされ 、微調整されたチャット モデルは人間がラベル付けした 100 万個のデータでトレーニングされます。
公開された評価結果は、Llama 2 が推論、コーディング、熟練度、知識テストなどの多くの外部ベンチマークで他のオープンソース言語モデルよりも優れていることを示しています。
次に、Meta が発行した技術レポートから Llama 2 について詳しく学びます。
論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
プロジェクトアドレス: https://github.com/facebookresearch/llama
ダウンロードリンク: https://ai.meta.com/resources/models-and-libraries/llama-downloads/
全体として、Llama 2 ファミリのモデルのサイズは、事前トレーニングされ微調整された大規模言語モデル (LLM) のセットとして 70 億から 700 億のパラメーターの範囲に及びます。その中でも、Llama 2-Chat は、会話のユースケース向けに特別に最適化されています。
Llama 2-Chat トレーニング パイプライン。
Llama 2 ファミリのモデルは、ほとんどのベンチマークでオープンソース モデルを上回るパフォーマンスを示すだけでなく、有用性と安全性に関する Meta の人による評価に基づいて、クローズドソース モデルの適切な代替品となる可能性もあります。
セキュリティの人による評価に関する Llama 2-Chat およびその他のオープンおよびクローズド ソース モデルの結果。
メタには、微調整とセキュリティの改善に対する Llama 2-Chat のアプローチが詳しく記載されており、コミュニティがその成果を基にして大規模な言語モデルの責任ある開発に貢献できるようになります。
事前トレーニング
Llama 2 モデルの新しいファミリーを作成するために、Meta は、Llama 1 の論文で説明されている事前トレーニング方法に基づいて構築され、最適化された自己回帰変換器を使用し、パフォーマンスを向上させるためにいくつかの変更を加えています。
具体的には、Meta はより強力なデータ クリーニングを実行し、混合データを更新し、トレーニング トークンの総数を 40% 増加させ、コンテキストの長さを 2 倍にします。以下の表 1 は、ラマ 2 とラマ 1 の詳細データを比較しています。
Llama 2 のトレーニング コーパスには、公開されているソースからの混合データが含まれており、メタ製品やサービス関連のデータは含まれていません。Llama 2 は、標準の Transformer アーキテクチャ、RMSNorm を使用した事前正規化、SwiGLU アクティベーション関数、回転位置の埋め込みなど、Llama 1 の事前トレーニング設定とモデル アーキテクチャの大部分を採用しています。
ハイパーパラメータに関しては、Meta は AdamW オプティマイザーでトレーニングされます。ここで、β_1 = 0.9、β_2 = 0.95、eps = 10^−5 です。同時に、コサイン学習率スケジュール (2000 ステップのウォームアップ) が使用され、最終学習率はピーク学習率の 10% に低下しました。
以下の図 5 は、これらのハイパーパラメータ設定における Llama 2 のトレーニング損失曲線を示しています。
ハードウェアのトレーニングに関して、Meta は、リサーチ スーパー クラスター (RSC) と社内実稼働クラスターでモデルを事前トレーニングしました。どちらのクラスターも NVIDIA A100 を使用しました。
事前トレーニングの二酸化炭素排出量に関して、Meta は、以前の研究手法に従って GPU デバイスの消費電力推定と炭素効率を使用して、Llama 2 モデルの事前トレーニングによって生成される二酸化炭素排出量を計算しました。
事前トレーニング中の Llama 2 の各モデルの二酸化炭素排出量。
Llama 2 事前トレーニング済みモデルの評価
Meta は、Llama 1、Llama 2 基本モデル、MPT (MosaicML)、Falcon などのオープンソース モデルの標準的な学術ベンチマークの結果を報告します。
以下の表 3 は、さまざまな一般的なベンチマークにおけるこれらのモデルの全体的なパフォーマンスをまとめたもので、Llama 2 が Llama 1 よりも優れていることを示しています。
オープンソース モデルに加えて、Meta は Llama 2 70B の結果をクローズドソース モデルと比較しました。その結果を以下の表 4 に示します。Llama 2 70B は、MMLU および GSM8K では GPT-3.5 に近いですが、エンコード ベンチマークには大きなギャップがあります。
さらに、GPT-4 と PaLM-2-L のパフォーマンスにはまだ大きな差がありますが、Llama 2 70B は、ほぼすべてのベンチマークで Google PaLM (540B) と同等以上の結果を達成しています。
微調整
Llama 2-Chat は、数か月にわたる研究と、命令アライメントや RLHF などのアライメント技術の反復適用の結果であり、大量の計算リソースと注釈リソースを必要とします。
教師あり微調整 (SFT)
サードパーティが監視した微調整データはさまざまなソースから入手できますが、これらのデータの多くは、特に LLM を会話型命令に合わせて調整する場合、十分に多様で高品質ではないことが Meta によってわかりました。したがって、彼らはまず、以下の表 5 に示すように、数千の高品質 SFT データの例を収集することに重点を置きました。
微調整中、各サンプルはプロンプトと回答で構成されます。モデル シーケンスの長さが正しくパディングされていることを確認するために、Meta はトレーニング セット内のすべてのプロンプトと回答を連結します。特別なトークンを使用してプロンプトと回答のフラグメントを分離し、自己回帰目標を利用してユーザー プロンプトからのトークン損失をゼロにすることで、回答トークンのみを逆伝播します。最後に、モデルは 2 回微調整されました。
RLHF
RLHF は、モデルの動作を人間の好みや指示に従ってさらに調整するために、微調整された言語モデルに適用されるモデル トレーニング手順です。メタは人間の好みの経験的サンプリングを表すデータを収集します。これにより、ヒューマン アノテーターは 2 つのモデル出力のうちどちらを好むかを選択できます。この人間によるフィードバックは、ヒューマン アノテーターの好みのパターンを学習し、自動的に好みの決定を行う報酬モデルをトレーニングするために使用されます。
以下の表 6 は、Meta によって長期にわたって収集された報酬モデリング データの統計を報告し、いくつかのオープンソースの嗜好データセットと比較しています。彼らは、人間が適用した指定基準、つまりメタ報酬モデリング データに基づいて、100 万件を超えるバイナリ比較の大規模なデータセットを収集しました。
ヒントと回答のトークンの数はテキスト ドメインによって異なることに注意してください。通常、要約やオンライン フォーラム データのプロンプトは長くなりますが、会話形式のプロンプトは通常短くなります。既存のオープンソース データセットと比較して、私たちの嗜好データには対話のターンが多く、平均の長さが長くなります。
報酬モデルは、モデルの応答とそれに対応するキュー (前のラウンドからのコンテキストを含む) を入力として受け取り、モデル生成の品質 (有用性や安全性など) を表すスカラー スコアを出力します。この応答スコアを報酬として使用して、Meta は RLHF 中に Llama 2-Chat を最適化し、人間の好みに合わせて有用性と安全性を向上させます。
報酬モデリングのための人間の好みのアノテーションの各バッチでは、メタはモデルを評価するためのテスト セットとして 1000 個のサンプルを取得し、対応するテスト セットのすべてのキューのコレクションをそれぞれ「メタ有用性」および「メタ安全性」と呼びます。
精度の結果を以下の表 7 に示します。予想通り、Meta 独自の報酬モデルは、Llama 2-Chat に基づいて収集された内部テスト セットで最高のパフォーマンスを示し、「有用性」報酬モデルは「メタ 有用性」テスト セットで最高のパフォーマンスを示し、同様に、「セキュリティ」報酬モデルは「メタ セーフティ」テスト セットで最高のパフォーマンスを示しました。
全体として、Meta の報酬モデルは GPT-4 を含むすべてのベースラインを上回っています。興味深いことに、GPT-4 は、この報酬モデリング タスクを直接トレーニングしたり、特にターゲットにしたりしていないにもかかわらず、他の非メタ報酬モデルよりも優れています。
ズームトレンド。Meta は、データとモデル サイズの観点から報酬モデルのスケーリング傾向を調査し、毎週収集される報酬モデル データの量が増加するにつれてさまざまなモデル サイズを微調整します。これらの傾向は以下の図 6 に報告されており、同様の量のデータを持つ大規模なモデルの方がパフォーマンスが向上すると予想される結果を示しています。
人間の嗜好データのアノテーションのバッチがより多く受信されると、より良い報酬モデルがトレーニングされ、より多くの手がかりが収集されるようになります。したがって、Meta は RLHF モデルの連続バージョン (ここでは RLHF-V1、...、RLHF-V5 と呼びます) をトレーニングしました。
ここで、RLHF は 2 つの主要なアルゴリズムを使用して微調整されます。
-
近接ポリシー最適化 (PPO)。
-
拒否サンプリングの微調整。
RLHFの結果
1つ目はモデルベースの評価結果です。以下の図 11 は、Meta 内の安全性と有用性の報酬モデルによって評価された、安全性と有用性の観点からのさまざまな SFT および RLHF バージョンの進捗状況を報告しています。
人による評価結果を見てみましょう。以下の図 12 に示すように、Llama 2 チャット モデルは、シングルラウンドとマルチラウンドの両方のプロンプトにおいてオープンソース モデルよりも大幅に優れています。特に、Llama 2-Chat 7B はヒントの 60% で MPT-7B チャットを上回っており、Llama 2-Chat 34B は同じサイズの Vicuna-33B や Falcon 40B と比較して 75% 以上の全体的な勝率を示しています。
ここでメタ氏は人間による評価の限界も指摘している。
この結果は、Llama 2-Chat が人間の評価に関して ChatGPT と同等であることを示していますが、人間の評価にはいくつかの制限があることに注意する必要があります。
-
学術および研究の基準によれば、この記事には 4k ヒントの大規模なヒント セットが含まれています。ただし、これにはこれらのモデルの実際の使用法は含まれておらず、実際の使用法はさらに多くなる可能性があります。
-
プロンプトの多様性も結果に影響を与えるもう 1 つの要因である可能性があります。たとえば、この論文で設定されたプロンプトには、コーディングや推論に関連するプロンプトが含まれていません。
-
この論文では、マルチターン対話の最終生成のみを評価します。より興味深い評価アプローチは、モデルにタスクを完了するように依頼し、複数の会話にわたるモデルの全体的なエクスペリエンスをスコアリングすることです。
-
生成モデルに対する人間による評価は本質的に主観的であり、ノイズが多く含まれます。したがって、異なるヒントのセットまたは異なる命令を使用して評価すると、異なる結果が得られる可能性があります。
安全性
この研究では、一般的に使用される 3 つのベンチマークを使用して Llama 2 の安全性を評価し、次の 3 つの主要な側面を対象としました。
-
信頼性。TruthfulQA ベンチマークを使用して、言語モデルがエラー情報を生成するかどうかを指します。
-
毒性。ToxiGen ベンチマークを使用して、言語モデルが「有害な」、失礼で有害なコンテンツを生成するかどうかを指します。
-
バイアス。BOLD ベンチマークを使用して、言語モデルがバイアスのあるコンテンツを生成するかどうかを指します。
事前トレーニングを受けたセキュリティ
まず、トレーニング前のデータはモデルにとって非常に重要です。Meta は、トレーニング前のデータの安全性を評価するための実験を実施します。
この研究では、ToxiGen データセットで微調整された HateBERT 分類器を使用して、トレーニング前コーパスの英語データの「毒性」を測定しました。具体的な結果は、以下の図 13 に示されています。
バイアスの問題を分析するために、この研究では、以下の表 9 に示すように、トレーニング前コーパス内の代名詞とアイデンティティ関連の用語とその割合を統計的に分析しました。
さらに、言語分布の観点から、Llama 2 コーパスがカバーする言語とその割合を以下の表 10 に示します。
セキュリティの微調整
具体的には、Meta は安全な微調整に次の手法を使用します: 1. 監視付き安全な微調整、2. 安全な RLHF、3. 安全なコンテキスト蒸留。
Meta は、Llama 2-Chat の開発初期に、監視付き微調整中にセキュリティ デモンストレーションから学習できることを観察しました。このモデルは、詳細なセキュリティ応答を作成し、セキュリティ上の懸念事項に対処し、トピックが機密である可能性がある理由を説明し、より有用な情報を提供することをすぐに学習しました。特に、モデルがセキュリティ応答を出力する場合、通常のアノテーターよりも詳しく記述する傾向があります。そこで、わずか数千の教師付きデモンストレーションを収集した後、Meta は RLHF に完全に切り替えて、より微妙な応答の書き方をモデルに教えました。完全なチューニングに RLHF を使用するもう 1 つの利点は、脱獄の試みに対してモデルがより堅牢になることです。
Meta はまず、安全に対する人間の好みに関するデータを収集することによって RLHF を実施します。この際、アノテーターは、危険な行動を引き起こすと思われるプロンプトを作成し、プロンプトに対する複数のモデル応答を比較し、一連のガイドラインに基づいて最も安全な応答を選択します。次に、人間の嗜好データを使用して安全な報酬モデルがトレーニングされ、敵対的プロンプトが RLHF ステージで再利用されてモデルからサンプリングされます。
以下の図 15 に示すように、Meta は、安全性と有用性の観点からモデルのパフォーマンスの結果として平均報酬モデル スコアを使用します。Meta は、安全なデータの割合を増やすと、危険なプロンプトや敵対的なプロンプトを処理するモデルのパフォーマンスが大幅に向上することを観察しました。
最後に、Meta はコンテキスト蒸留を使用して RLHF パイプラインを改良します。これには、「あなたは安全で責任あるアシスタントです」などの安全なプレプロンプトをプロンプトの前に付加することによって、より安全なモデル応答を生成し、その後、プレプロンプトなしでより安全な応答に基づいてモデルを微調整することが含まれます。これにより、基本的に安全なプレプロンプト (コンテキスト) がモデルに抽出されます。
Meta は、セキュリティ報酬モデルがサンプルごとにコンテキスト蒸留を使用するかどうかを選択できるようにする、ターゲットを絞ったアプローチを使用します。
以下の図 17 は、さまざまな LLM の全体的な侵害パーセンテージと安全性評価を示しています。
以下の図 18 は、シングル ターン会話とマルチターン会話の違反パーセンテージを示しています。モデル全体の傾向としては、対話を複数ラウンド行うと、安全でない反応が誘発される可能性が高くなります。とはいえ、Llama 2-Chat は、特に複数ターンの会話において、ベースラインと比較して依然として良好なパフォーマンスを発揮します。
以下の図 19 は、さまざまな LLM のさまざまなカテゴリにおけるセキュリティ侵害の割合を示しています。
参考リンク: https: //ai.meta.com/llama/