戦いを始めましょう~最小のSOTAモデル: ミストラル7B、あらゆる面でLLaMA2 13BとLLaMA1 34Bを粉砕します

6d50182ae02eff88420e0f2587d2ad1a.png

ディープラーニング自然言語処理共有

Mistral AI チームは、これまでで最小かつ最も強力な言語モデルである Mistral 7B をリリースできることを誇りに思っています。

NLP グループに入る —> NLP コミュニケーション グループに参加する

ミストラル7Bの紹介

Mistral 7B は、次の機能を備えた 73 億パラメータ モデルです。

  • すべてのベンチマークで Llama 2 13B よりも優れています

  • 多くのベンチマークで Llama 1 34B よりも優れています

  • コードでは CodeLlama 7B のパフォーマンスに近く、英語のタスクでは良好なパフォーマンスを示します

  • グループ化クエリ アテンション (GQA) を使用して推論を高速化する

  • スライディング ウィンドウ アテンション (SWA) を使用して、より長いシーケンスを低コストで処理します

Mistral 7B は Apache 2.0 ライセンスに基づいてリリースされており、制限なく使用できます。

  • リファレンス実装[1]を使用して[2]をダウンロードし、どこでも (ローカルを含む) 使用できます。

  • vLLM Inference Server [3]と Skypilot を使用して任意のクラウド (AWS/GCP/Azure) にデプロイします

  • ハギングフェイスで使用します[4]

Mistral 7B は、どんなタスクでも簡単に微調整できます。デモンストレーションとして、Llama 2 13B チャット モデルを上回るチャット用に微調整されたモデルを提供します。

性能詳細

私たちは、Mistral 7B を Llama 2 シリーズと比較し、公平な比較のためにすべてのモデルの評価を再実行しました。

873f61c28ee5d0f20e7e54cd1ba1d0d0.png

さまざまなベンチマークにおける Mistral 7B およびさまざまな Llama モデルのパフォーマンス。正確な比較を行うために、すべてのモデルのすべての指標が評価プロセスを通じて再評価されます。Mistral 7B は、すべての指標において Llama 2 13B よりも大幅に優れており、Llama 34B に匹敵します (Llama 2 34B はリリースされていないため、Llama 34B の結果を報告します)。また、コードと推論のベンチマークでも他のモデルよりもはるかに優れています。

これらのベンチマークは、次のようにトピックごとに分類されています。

  • 常識的な推論: Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge、CommonsenseQA のゼロショット。

  • World Knowledge: NaturalQuestions と TriviaQA の 5 ショット。

  • 読解: BoolQ と QuAC のゼロショット。

  • 演算: maj@8 を使用した 8 ショット GSM8K および maj@4 を使用した 4 ショット MATH

  • コード: Humaneval の 0 ショットおよび 3 ショット MBPP

  • 上位のサマリー結果: 5 ショット MMLU、3 ショット BBH、および 3-5 ショット AGI 評価 (英語の多肢選択式質問のみ)

93750da9153df2e3e167d9732e57352c.png

コスト/パフォーマンス面でモデルのパフォーマンスを比較するための興味深い指標は、「等価モデル サイズ」を計算することです。推論、理解、および STEM 推論 (MMLU) の観点からは、Mistral 7B のパフォーマンスは Llama 2 のパフォーマンスと同等であり、3 倍以上です。これは、メモリの節約とスループットの向上に関してかなりの利点が得られることを意味します。

342c79e27f393f37cbb5a60b5daeabba.png

ミストラル 7B とラマ 2 (7B/13/70B) の MMLU、常識的推論、世界知識、読解力の結果。Mistral 7B は、すべての評価においてほぼ Llama 2 13B を上回っていますが、知識ベンチマークでは同等のパフォーマンスしかありません (これはパラメーターの数が限られており、圧縮できる知識の量が制限されているためである可能性があります)。

注: 私たちの評価と LLaMA2 論文の評価には重要な違いがあります。

  • MBPP の場合、手動で検証されたサブセットを使用します

  • TriviaQA については、Wikipedia からのコンテキスト情報は提供しませんでした。

フラッシュ・アンド・フューリアス: アテンション・ドリフト

Mistral 7B はスライディング ウィンドウ アテンション (SWA) メカニズム (Child et al.、Beltagy et al.) を使用しており、各レベルは上位 4,096 個の隠れた状態に焦点を当てます。主な改善点、および最初の調査の理由は、計算コストが直線的に O(sliding_window.seq_len) になったことです。実際には、FlashAttendant と xFormers に加えられた変更により、シーケンス長 16k、ウィンドウ 4k で 2 倍の高速化が実現しました。タイトなスケジュールでこれらの変更を反映させるのに協力してくれた Tri Dao と Daniel Haziza に感謝します。

スライディング ウィンドウ アテンションは、Transformer の積み重ねられたレイヤーを利用して、ウィンドウ サイズを超えた過去に焦点を当てます。レイヤー k のトークン i は、レイヤー k-1 のトークン [i-sliding_window, i] に焦点を当てます。これらのトークンは、トークン [i-2*sliding_window, i] に関係します。より高いレベルには、注意モードよりもさらに過去の情報が含まれます。

0b984dd922478ca1aed356c9495259a8.png

最後に、アテンション スパンが固定されているということは、回転バッファを使用してキャッシュを slider_window トークンのサイズに制限できることを意味します (詳細については、リファレンス実装リポジトリ [5] を参照してください)これにより、モデルの品質に影響を与えることなく、長さ 8192 のシーケンスを推論するときにキャッシュ メモリの半分が節約されます。

ミストラル 7B のチャット調整

Mistral 7B の一般化機能を実証するために、HuggingFace で公開されている命令データセットを使用して微調整しました。特別なギミックや独自のデータはありません。結果として得られたモデル、Mistral 7B Instruct [6]は、MT-Bench [7]上のすべての 7B モデルを上回り、13B チャット モデルに匹敵します。

cb8f96ac8033d3d5e752237596fc6420.png

Mistral 7B Instruct モデルは、ベース モデルを簡単に微調整して魅力的なパフォーマンスを実現できることを簡単にデモンストレーションします。私たちはコミュニティと協力して、これらのモデルを最終的に出力規制が必要な環境に導入するための規制枠組みに準拠できるようにする方法を模索することを楽しみにしています。

この記事は元のアドレスを参照しています[8]

参考文献

[1]

リファレンス実装: https://github.com/mistralai/mistral-src

[2]

ダウンロード: https://files.mistral-7b-v0-1.mistral.ai/mistral-7B-v0.1.tar

[3]

推論サーバーとスカイパイロット: https://docs.mistral.ai/cloud-deployment/skypilot

[4]

ハギングフェイス: https://huggingface.co/mistralai

[5]

リファレンス実装リポジトリ: https://github.com/mistralai/mistral-src

[6]

ミストラル 7B の指示: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1

[7]

MTベンチ: https://arxiv.org/abs/2306.05685

[8]

元のアドレス: https://mistral.ai/news/payment-mistral-7b/


NLP グループに入る —> NLP コミュニケーション グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/133398027