Llama2 をローカルで実行する 3 つの方法

Replicate での Llama 2 の実行と微調整については、これまで何度も話してきました。ただし、Llama を M1/M2 Mac、Windows、Linux、さらには携帯電話でもネイティブに実行することもできます。Llama 2 をローカルで実行する場合の優れた点の 1 つは、インターネット接続さえ必要ないことです。

ここに画像の説明を挿入

推奨事項: NSDT Designerを使用して、プログラム可能な 3D シーンを迅速に構築します。

Llama 2 はリリースされてまだ数日しか経っていませんが、ローカルで実行するためのテクニックがすでにいくつかあります。このブログ投稿では、自分のデバイスで Llama 2 を実行するために使用できる 3 つのオープンソース ツールを紹介します。

  • Llama.cpp (Mac/Windows/Linux)
  • オラマ (3月)
  • MLC LLM(iOS/Android)

1、Llama.cpp (Mac/Windows/Linux)

Llama.cpp は C/C++ の Llama のポートで、4 ビット整数量子化を使用して Mac 上で Llama 2 をネイティブに実行できるようにします。Llama.cpp は Linux/Windows もサポートしています。

次のコマンドを使用して M1/M2 Mac にインストールできます。

curl -L "https://replicate.fyi/install-llama-cpp" | bash

上記コマンドの実行内容は以下の通りです。

#!/bin/bash

# Clone llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# Build it. `LLAMA_METAL=1` allows the computation to be executed on the GPU
LLAMA_METAL=1 make

# Download model
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
    curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi

# Set prompt
PROMPT="Hello! How are you?"

# Run in interactive mode
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
  --color \
  --ctx_size 2048 \
  -n -1 \
  -ins -b 256 \
  --top_k 10000 \
  --temp 0.2 \
  --repeat_penalty 1.1 \
  -t 8

Intel Mac または Linux マシン用の 1 行コマンドを次に示します。上記と同じですが、LLAMA_METAL=1 フラグは含めません。

curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash

Windows 上の WSL で実行する 1 行のコマンドは次のとおりです。

curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash

2、オラマ(3月)

Ollama は、コマンドライン インターフェイスを通じて大規模な言語モデルを実行、作成、共有できるオープン ソースの macOS アプリケーション (Apple Silicon 用) です。Ollama はすでに Llama 2 をサポートしています。

Ollama CLI を使用するには、ollama.ai/download から macOS アプリをダウンロードします。インストールしたら、アカウントにサインアップしたり待機リストに参加したりせずに、Lllama 2 をダウンロードできます。ターミナルで次を実行します。

# download the 7B model (3.8 GB)
ollama pull llama2

# or the 13B model (7.3 GB)
ollama pull llama2:13b

その後、モデルを実行してチャットできます。

ollama run llama2
>>> hi
Hello! How can I help you today?

注: Ollama では、3B モデルの実行には少なくとも 8 GB、7B モデルの実行には 16 GB、13B モデルの実行には 32 GB 以上の RAM を推奨します。

3. MLC LLM (モバイル上のラマ)

MLC LLM は、iOS や Android を含むさまざまなデバイスやプラットフォームで言語モデルをネイティブに実行できるオープン ソース プロジェクトです。

iPhone ユーザーの場合は、App Store に MLC チャット アプリがあります。MLC は現在、Llama 2 のバージョン 7B、13B、および 70B をサポートしていますが、まだベータ版であり、Apple Store バージョンにはまだないため、試すには TestFlight がインストールされている必要があります。ベータ版のインストール手順については、こちらをご覧ください。


原文リンク: Llama2 のローカル操作のための 3 つのソリューション - BimAnt

おすすめ

転載: blog.csdn.net/shebao3333/article/details/132015116