[LLM] 大規模言語モデル学習用の LLAMA 2: オープンな基盤と微調整されたチャット モデル


LLAMA はオープンソースであるため、AI コミュニティで最も強力なオープンソースの大規模モデルであると言えます。ただし、オープンソース契約のため、商用利用は無料ではありません。最近、Meta は待望の無料商用版 LLAMA 2 をリリースしました。

ラマ2
この取り組みでは、70 億から 700 億パラメータのサイズの、事前トレーニングされ、微調整された大規模言語モデル (LLM) のファミリーである LLAMA 2 を開発し、リリースします。Llama 2-Chat と呼ばれる微調整された LLM は、会話シナリオ向けに最適化されています私たちのモデルは、テストしたほとんどのベンチマークでオープンソースの対話モデルを上回っており、その有益性と安全性により、人間による評価に基づくクローズドソース モデルの適切な代替品となります。私たちは、コミュニティが私たちの取り組みを発展させ、責任ある LLM 開発に貢献できるようにすることを目的として、Llama 2-Chat の微調整とセキュリティ改善に対する私たちのアプローチを詳しく説明します。

プロジェクトアドレス: https://github.com/facebookresearch/llama
論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

理解が早い

簡単に言えば、LLaMa 2 は商業的に適したライセンスを持つ LLaMA の次世代バージョンです。サイズは7B、13B、70Bの3種類あります。事前トレーニング段階では 2 兆トークンが使用され、SFT 段階では 100,000 以上のデータが使用され、人間の嗜好データは 100 万を超えました。7B および 13B は LLaMA 1 と同じアーキテクチャを使用しており、商用利用向けの 1 対 1 の代替品です。
フレイム2 vs フレイム
また、誰もが最も気になるLlama2モデルとChatGPTモデルの効果比較についても論文内で言及されており、GPT-4と比較してLlama2の評価結果が良く、緑色の部分はGPT4よりもLlama2の割合が優れていることを示しているとのこと。レポートでは、Llama 1 と比較して、Llama 2 には 40% 多くのトレーニング データがあり、コンテキストの長さが 2 倍になり、グループ クエリ アテンション メカニズムを使用して長いテキストを理解して生成します。
ラマ2 VS gpt-4
LLAMA 2 体験リンク:

全体として、Llama 2 ファミリーのモデルのサイズは、事前トレーニングされ微調整された大規模言語モデル (LLM) のセットとして 70 億から 700 億のパラメーターの範囲に及びます。その中で、Llama 2-Chat は会話のユースケースに特に最適化されており、人間のフィードバックからの強化学習を使用して安全性と有用性を確保しています。
LLAMA 2-CHAT トレーニング パイプライン
ラマ 2 チャットのトレーニング: ラマ 2 は、公開されているオンライン データを使用して事前トレーニングされています。次に、Llama-2-chat の初期バージョンが、監視付き微調整を使用して作成されます。次に、Llama-2 チャットは、拒否サンプリングと近接ポリシー最適化 (PPO) を含むヒューマン フィードバックによる強化学習 (RLHF) を使用して反復的に改良されます。

Llama 2 ファミリのモデルは、ほとんどのベンチマークでオープンソース モデルを上回るパフォーマンスを示すだけでなく、有用性と安全性に関する Meta の人による評価に基づいて、クローズドソース モデルの適切な代替品となる可能性もあります。
Llama 2 チャットおよびその他のオープンソースおよびクローズドソース モデルの安全性に関する人間による評価の結果

事前トレーニング

Llama 2 モデルの新しいファミリーを作成するために、Meta は、Llama 1 の論文で説明されている事前トレーニング方法に基づいて構築され、最適化された自己回帰変換器を使用し、パフォーマンスを向上させるためにいくつかの変更を加えています。
(1) データの面では
、具体的には、Meta はより堅牢なデータ クリーニングを実行し、混合データを更新し、トレーニング トークンの総数を 40% 増加し、コンテキストの長さを 2 倍にしました。以下の表 1 は、ラマ 2 とラマ 1 の詳細データを比較しています。
LLAMA 2ファミリーのモデル
Llama 2 のトレーニング コーパスには、公開されているソースからの混合データが含まれており、メタ製品やサービス関連のデータは含まれていません。また、プライバシーに重点を置き、多くの個人情報が含まれていることが知られている一部の Web サイトからデータを削除するよう努めます。2 兆トークンのデータでトレーニングされているため、優れたパフォーマンスとコストのトレードオフが得られ、最も現実的なソースをアップサンプリングして知識を増やし、幻覚を抑制し、現実を保ちます。同時に、ユーザーが安全性を確保するためのモデルの潜在的な機能と制限をよりよく理解できるように、さまざまな事前トレーニング データ調査が実施されました。

(2) モデル構造
Llama 2 は、標準の Transformer アーキテクチャ、RMSNorm を使用した事前正規化、SwiGLU アクティベーション関数、RoPE を埋め込んだ回転位置など、Llama 1 の事前トレーニング設定とモデル アーキテクチャのほとんどを採用しています。Llama 1 との主なアーキテクチャの違いには、コンテキストの長さの増加とグループ化されたクエリ アテンション (GQA) が含まれます。

  • コンテキストの長さ
    Llama 2 のコンテキスト ウィンドウは、2048 トークンから 4096 文字まで拡張されます。コンテキスト ウィンドウが長くなると、モデルはより多くの情報を処理できるようになります。これは、チャット アプリケーションでの長い履歴、さまざまな要約タスクのサポート、および長いドキュメントの理解に不可欠です。複数の評価結果は、より長いコンテキスト モデルがさまざまな一般的なタスクで強力なパフォーマンスを維持していることを示しています。
    表 16 は、ロング コンテキスト ベンチマークでの 2k コンテキストと 4k コンテキストの事前トレーニングのパフォーマンスを比較しています。どちらのモデルも 150B トークンでトレーニングされ、ベースラインと同じアーキテクチャとハイパーパラメータを維持し、コンテキストの長さのみを変更します。SCROLLS では改善が見られ、平均入力長は 3.5k ですが、SQUAD ではパフォーマンスの低下はありません。表 17 は、より長いコンテキスト モデルがさまざまな一般的なタスクで強力なパフォーマンスを維持していることを示しています。
    表 16 は、ロング コンテキスト ベンチマークでの 2k コンテキストと 4k コンテキストの事前トレーニングのパフォーマンスを比較しています。
  • グループ化されたクエリ アテンション グループ クエリ アテンション
    • 自己回帰デコードの標準的な方法は、以前にマークされたキー (K) と値 (V) のペアをシーケンス内にキャッシュし、それによってアテンションの計算を高速化することです。ただし、コンテキスト ウィンドウまたはバッチ サイズが増加すると、マルチヘッド アテンション (MHA) モデルの KV キャッシュ サイズに関連するメモリ コストが大幅に増加しますKV キャッシュ サイズがボトルネックになる大規模なモデルの場合、パフォーマンスに重大な影響を与えることなく、キーと値の投影を複数のヘッド間で共有できます。単一の KV プロジェクションを使用するオリジナルのマルチ クエリ フォーマット (MQA)、または 8 つの KV プロジェクションを使用するグループ化クエリ アテンション バリアント (GQA) を使用できます。
    • Meta は、MQA および GQA バリアントを MHA ベースラインと比較し、固定の 30B モデル サイズを維持しながら、すべてのモデルを 150B 文字でトレーニングします。GQA と MQA で同様の全体的なパラメータ数を維持するために、フィードフォワード層の次元が増加して、アテンション層の減少を補いますMeta は MQA バリアントの FFN 次元を 1.33 倍に増加させ、Llama は GQA バリアントの 1.3 倍に増加させます。結果から、GQA バリアントは、ほとんどの評価タスクで MHA ベースラインと同等のパフォーマンスを示し、平均して MQA バリアントを上回っていることがわかります。
      表 18 アテンション アーキテクチャのアブレーション

(3) パラメータ
ハイパーパラメータに関して、Meta はトレーニングに AdamW オプティマイザを使用します。ここで、β 1 = 0.9 β_1 = 0.9b1=0.9β 2 = 0.95 β_2 = 0.95b

おすすめ

転載: blog.csdn.net/ARPOSPF/article/details/131901606