リニューアルされたLlama 2の性能はどうなっているのでしょうか？

データホエール乾物

大型モデル: Llama 2、出典: Heart of the Machine

性能的にはまだChatGPT 3.5には及びませんが、オープンソースの力は計り知れません。

Meta社からリリースされたLlama 2にスワイプされた方も多いと思います。OpenAIの研究科学者アンドレイ・カルパシー氏はツイッターで、「人工知能とLLMにとって、今日は本当に大事な日だ。これは誰もが使える重みを提供できる最も強力なLLMだ」と述べた。

オープンソースコミュニティにとって、この大きなモデルは「村全体の希望」です。その登場により、オープンソースのビッグモデルとクローズドソースのビッグモデルの間のギャップがさらに縮まり、誰もがそれに基づいて独自のビッグモデルアプリケーションを構築する機会が与えられます。

したがって、過去 24 時間、Llama 2 はすべてのコミュニティメンバーの注目の的でした。誰もがそのパフォーマンス、導入方法、考えられる影響について話しています。誰でも初めてでも理解できるように、この記事にまとめました。

Llama 2 は正確にどのように動作しますか?

評価結果を紹介する前に、Llama 2 の基本情報を整理しましょう。

70 億、130 億、700 億の 3 つのパラメータバリアントが含まれており、さらに 340 億のパラメータバリアントがトレーニングされましたが、リリースされておらず、技術レポートでのみ言及されています。
2 兆のトークンでトレーニング。Llama 1 と比較してトレーニングデータは 40% 増加し、微調整されたチャットモデルは人間がラベル付けした 100 万個のデータでトレーニングされます。
サポートされるコンテキストトークンの長さが 2048 から 4096 に 2 倍になりました。
商用利用は無料ですが、毎日のアクティブユーザー数が 7 億人を超える製品については、別途商用許可を申請する必要があります。

Llama 2 のリリース後、Llama プロジェクト全体の Github スターのボリュームは 30,000 に近づいています。

Meta が発行した論文では、Llama 2 のパフォーマンスも確認できます。

Llama 2 70B は、MMLU および GSM8K で GPT-3.5 に近いスコアを示していますが、エンコードベンチマークには大きなギャップがあります。
ほぼすべてのベンチマークで、Llama 2 70B は Google PaLM (540B) と同等以上の結果を達成していますが、GPT-4 と PaLM-2-L のパフォーマンスには依然として大きな差があります。

つまり、パラメータ数が最も多いLlama 2 70Bであっても、現状ではGPT-3.5を超える性能には至っておらず、GPT-4とはさらに遠く離れている。

ラマ2の強さをテストするために、さまざまなネチズンは、「ばかばかしい」情報に基づいて会社の電子メールを書くように彼に依頼するなど、それをテストする方法を見つけようとしています。

すでに Llama 2 やその他の ChatGPT 類似製品の PK のライブブロードキャストを開始している人もいます。

テストプロセス中に、いくつかの問題が見つかりました。たとえば、ラマ 2 は RLHF トレーニングを受けすぎているようで、非常に規律が厳しくなりました。

開発者が作成した無料アプリでは、マシンの心臓部も実際に体験することができました。

まず、Llama 2 で何ができるのか聞いてみましょう。ラマ 2 は次のように答えました。「質問に答えたり、情報を提供したり、日常業務を手伝ったりするなど、さまざまなタスクを手伝うことができます。私は単なる人工知能であり、実際にタスクを実行することはできませんが、あなたが望んでいることを提供することはできます」情報や支援が必要です...」。言語の観点から見ると、Llama 2 は中国語入力をサポートしていますが、答えは基本的に英語であり、中国語を理解して生成する能力は限られています。

では、データはいつ遮断されるのかを尋ねます。ラマ 2 の回答から、ラマ 2 が持つデータの期限は 2022 年 12 月であることがわかります。

次に、ラマ 2 にあまり関係のない質問をしました。ラマ 2 はタイトルの不合理性を指摘し、いくつかのアドバイスを提供しました。

しかし、ラマ 2 は鶏とウサギのケージの問題がまだ苦手です。

テストアドレス: https://llama-2.replit.app/

Twitter で、Vicuna プロジェクトの作成者はシステムテストの結果を発表し、次のような結論を出しました。

ラマ-2 はより強力なコマンド追従能力を示しますが、情報検索、符号化、および数学では依然として GPT-3.5/クロードに大きく遅れをとっています。
セキュリティに対して過敏になると、ユーザーのクエリが誤解される可能性があります。
チャットパフォーマンスは Llama-1 ベースの主要モデル (Vicuna、WizardLM など) に匹敵します。
英語以外の言語スキルが限られている。

以下にいくつかのテストデータと結果を示します。

これらのモデルをローカルで実行できるデバイスはどれですか?

Llama 2 はさまざまなサイズでオープンソース化されているため、これらのモデルはローカル展開の点で非常に柔軟です。データをインターネットにアップロードしたくない場合は、ローカル展開が最良の選択です。このアイデアは、Chen Tianqi らが作成した MLC-LLM プロジェクトを通じて実現できます。

プロジェクトアドレス: https://github.com/mlc-ai/mlc-llm

以前のレポートで、このプロジェクトについて触れました。その目標は、モバイル、コンシューマ PC、Web ブラウザを含む「あらゆるデバイス上で大規模な言語モデルをコンパイルして実行」できるようにすることです。サポートされているプラットフォームは次のとおりです。

Llama 2 のリリース後、Chen Tianqi などのプロジェクトメンバーは、MLC-LLM が Llama-2-70B-chat のローカル展開をサポートするようになったと述べました (実行には 50GB VRAM を搭載した Apple Silicon Mac が必要です)。M2 Ultra では、デコード速度は最大 10.0 トークン/秒に達します。

もちろん、MLC-LLM を使用すると、Llama 2 モデルの他のバージョンの実行がさらに簡単になります。7B モデルは、Apple M2 Max で約 46 tok/s、RTX 4090 で約 156 tok/s で実行されます。

さらに、Chen Tianqi らがリリースした「MLC Chat」APP (Apple App Store で入手可能) を利用して、携帯電話や iPad で Llama 2 を使用してみることもできます (インターネット接続は必要ありません)。。

ラマ2はどのような影響を与えるのでしょうか?

Meta が今年 2 月に Llama をオープンソース化しなかった場合、「Alpaca」を書く方法がこれほどたくさんあることを知らないかもしれません。このオープンソースモデルに基づく「Second Creation」プロジェクトは、生物学的用語のほぼすべての英語を占めています。アルパカ。Meta がモデルをバージョン 2.0 まで反復した後、これらのプロジェクトは自然に新しい出発点に引き上げられました。

Llama 2のリリースから1日も経たないうちに、GPT-4と同様の画像情報を処理できる大型マルチモーダルモデル「Lava Alpaca LLaVA」の開発者は、Llama 2をベースにしたLLaVAをアップデートしたことを発表しました。新しいバージョンでは、LLaMA-2 のサポートが追加されているほか、アカデミック GPU を使用した LoRA トレーニングや、高解像度 (336x336) や 4/8 推論などの機能もサポートされています。

さらに、より長いコンテキストウィンドウを提供する最新の RLHF 微調整 LLaMA-2-Chat チェックポイントに基づく新しい LLaVA バリアントのプレビューバージョンをリリースしました。これらの新しいリリースは、RTX 3090 および RTX A6000 でのトレーニングをサポートおよび検証し、大規模なマルチモーダルモデルのトレーニングをより簡単に、より幅広いコミュニティが利用できるようにします。

もちろん、これはほんの始まりにすぎません。時間の経過とともに、Llama 2 をベースにしたモデルが次々に発売またはアップデートされ、「千モデル戦争」が間もなく始まります。

Llama の将来の開発と影響については、Nvidia のシニア AI サイエンティストである Jim Fan 氏も次のように独自の予測を述べています。

ラマ-2の訓練には2,000万ドル以上かかる可能性がある。以前は商用ライセンスの問題から一部の大企業の人工知能研究者らはラマ1に慎重だったが、ラマ2の商用制限は大幅に緩和されており、将来的には多くの人がラマ陣営に加わって力を発揮する可能性がある。
Llama-2 はまだ GPT-3.5 のレベルに達しておらず、プログラミングやその他の問題に明らかな欠点がありますが、その重みはオープンであるため、これらの問題は遅かれ早かれ改善されるでしょう。
ラマ-2 は、マルチモーダル人工知能とロボット工学の研究を大きく前進させるでしょう。これらの領域では、API へのブラックボックス以上のアクセスが必要です。現在、複雑な感覚信号 (ビデオ、オーディオ、3D 知覚) をテキストの説明に変換し、それを LLM (言語と視覚の融合モデル) に入力する必要がありますが、これは非常に不器用で、結果的に情報が大幅に失われます。強力な LLM バックボーンに知覚モジュールを直接移植する方が効率的です。

クローズドソースの大規模モデルを開発する企業にとっても、Llama 2のリリースは大きな意味を持つ。彼らが開発するモデルが十分強力でない場合、またはオープンソースの Llama 2 やその派生モデルに大きく及ばない場合、その商業的価値を実現することは困難になります。

Llama 2 の将来の影響についてご意見がある場合は、コメント欄にメッセージを残してください。

乾物学習、3回分↓

リニューアルされたLlama 2の性能はどうなっているのでしょうか？

おすすめ