Replicate での Llama 2 の実行と微調整については、これまで何度も話してきました。ただし、Llama を M1/M2 Mac、Windows、Linux、さらには携帯電話でもネイティブに実行することもできます。Llama 2 をローカルで実行する場合の優れた点の 1 つは、インターネット接続さえ必要ないことです。
推奨事項: NSDT Designerを使用して、プログラム可能な 3D シーンを迅速に構築します。
Llama 2 はリリースされてまだ数日しか経っていませんが、ローカルで実行するためのテクニックがすでにいくつかあります。このブログ投稿では、自分のデバイスで Llama 2 を実行するために使用できる 3 つのオープンソース ツールを紹介します。
- Llama.cpp (Mac/Windows/Linux)
- オラマ (3月)
- MLC LLM(iOS/Android)
1、Llama.cpp (Mac/Windows/Linux)
Llama.cpp は C/C++ の Llama のポートで、4 ビット整数量子化を使用して Mac 上で Llama 2 をネイティブに実行できるようにします。Llama.cpp は Linux/Windows もサポートしています。
次のコマンドを使用して M1/M2 Mac にインストールできます。
curl -L "https://replicate.fyi/install-llama-cpp" | bash
上記コマンドの実行内容は以下の通りです。
#!/bin/bash
# Clone llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# Build it. `LLAMA_METAL=1` allows the computation to be executed on the GPU
LLAMA_METAL=1 make
# Download model
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi
# Set prompt
PROMPT="Hello! How are you?"
# Run in interactive mode
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
--color \
--ctx_size 2048 \
-n -1 \
-ins -b 256 \
--top_k 10000 \
--temp 0.2 \
--repeat_penalty 1.1 \
-t 8
Intel Mac または Linux マシン用の 1 行コマンドを次に示します。上記と同じですが、LLAMA_METAL=1 フラグは含めません。
curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash
Windows 上の WSL で実行する 1 行のコマンドは次のとおりです。
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
2、オラマ(3月)
Ollama は、コマンドライン インターフェイスを通じて大規模な言語モデルを実行、作成、共有できるオープン ソースの macOS アプリケーション (Apple Silicon 用) です。Ollama はすでに Llama 2 をサポートしています。
Ollama CLI を使用するには、ollama.ai/download から macOS アプリをダウンロードします。インストールしたら、アカウントにサインアップしたり待機リストに参加したりせずに、Lllama 2 をダウンロードできます。ターミナルで次を実行します。
# download the 7B model (3.8 GB)
ollama pull llama2
# or the 13B model (7.3 GB)
ollama pull llama2:13b
その後、モデルを実行してチャットできます。
ollama run llama2
>>> hi
Hello! How can I help you today?
注: Ollama では、3B モデルの実行には少なくとも 8 GB、7B モデルの実行には 16 GB、13B モデルの実行には 32 GB 以上の RAM を推奨します。
3. MLC LLM (モバイル上のラマ)
MLC LLM は、iOS や Android を含むさまざまなデバイスやプラットフォームで言語モデルをネイティブに実行できるオープン ソース プロジェクトです。
iPhone ユーザーの場合は、App Store に MLC チャット アプリがあります。MLC は現在、Llama 2 のバージョン 7B、13B、および 70B をサポートしていますが、まだベータ版であり、Apple Store バージョンにはまだないため、試すには TestFlight がインストールされている必要があります。ベータ版のインストール手順については、こちらをご覧ください。