3 formas de ejecutar Llama2 localmente

Hemos hablado mucho sobre cómo ejecutar y ajustar Llama 2 en Replicate. Pero también puede ejecutar Llama de forma nativa en una Mac M1/M2, Windows, Linux o incluso en un teléfono. Una de las mejores cosas de ejecutar Llama 2 localmente es que ni siquiera necesita una conexión a Internet.

inserte la descripción de la imagen aquí

Recomendación: use NSDT Designer para crear rápidamente escenas 3D programables.

Llama 2 solo ha estado disponible durante unos días, pero ya existen algunas técnicas para ejecutarlo localmente. En esta publicación de blog, presentaremos tres herramientas de código abierto que se pueden usar para ejecutar Llama 2 en su propio dispositivo:

Llama.cpp (Mac/Windows/Linux)
Ollama (marzo)
MLC LLM (iOS/Android)

1、Llama.cpp (Mac/Windows/Linux)

Llama.cpp es un puerto de Llama en C/C++, lo que hace posible ejecutar Llama 2 de forma nativa en una Mac con cuantificación de enteros de 4 bits. Llama.cpp también es compatible con Linux/Windows.

Se puede instalar en una Mac M1/M2 con el siguiente comando:

curl -L "https://replicate.fyi/install-llama-cpp" | bash

El siguiente es el contenido de ejecución del comando anterior:

#!/bin/bash

# Clone llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# Build it. `LLAMA_METAL=1` allows the computation to be executed on the GPU
LLAMA_METAL=1 make

# Download model
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
    curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi

# Set prompt
PROMPT="Hello! How are you?"

# Run in interactive mode
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
  --color \
  --ctx_size 2048 \
  -n -1 \
  -ins -b 256 \
  --top_k 10000 \
  --temp 0.2 \
  --repeat_penalty 1.1 \
  -t 8

Aquí hay un comando de una línea para su máquina Intel Mac o Linux. Igual que arriba, pero no incluimos la marca LLAMA_METAL=1:

curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash

Aquí hay un comando de una línea para ejecutar en WSL en Windows:

curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash

2、Ollama (marzo)

Ollama es una aplicación macOS de código abierto (para Apple Silicon) que le permite ejecutar, crear y compartir grandes modelos de lenguaje a través de una interfaz de línea de comandos. Ollama ya es compatible con Llama 2.

Para usar Ollama CLI, descargue la aplicación macOS desde ollama.ai/download. Una vez instalado, puede descargar Lllama 2 sin registrarse para obtener una cuenta ni unirse a ninguna lista de espera. En tu terminal ejecuta:

# download the 7B model (3.8 GB)
ollama pull llama2

# or the 13B model (7.3 GB)
ollama pull llama2:13b

Luego puede ejecutar el modelo y chatear con él:

ollama run llama2
>>> hi
Hello! How can I help you today?

NOTA: Ollama recomienda al menos 8 GB de RAM para ejecutar el modelo 3B, 16 GB para ejecutar el modelo 7B y 32 GB para ejecutar el modelo 13B.

3. MLC LLM (Llama en el móvil)

MLC LLM es un proyecto de código abierto que puede ejecutar modelos de lenguaje de forma nativa en una variedad de dispositivos y plataformas, incluidos iOS y Android.

Para los usuarios de iPhone, hay una aplicación de chat MLC en la App Store. MLC ahora es compatible con las versiones 7B, 13B y 70B de Llama 2, pero aún está en versión beta y aún no en la versión de Apple Store, por lo que necesitará TestFlight instalado para probarlo. Consulte las instrucciones para instalar la versión beta aquí.

Texto original link: 3 soluciones para operación local de Llama2 - BimAnt