introducir
Este tutorial utiliza lenguaje C para implementar y ejecutar el modelo llama2, que puede realizar inferencias de manera eficiente en la CPU. Los contenidos principales son:
1 Configuración del entorno de ejecución, incluido C, Python
2 Convertir el modelo llama2 original a formato binario
3 Usar lenguaje C para inferir llama2
Instalación y configuración del entorno.
Descarga del proyecto:
git clone https://github.com/karpathy/llama2.c.git
Sistema operativo: ubuntu (lo probé en Windows y la compilación informará un error)
Entorno de software:
gcc make (si ya lo tienes , no necesita instalarlo)
python (usé 3.9, se espera que otras versiones estén bien)
instalación de gcc: apt install build-essential
make instalación: apt-get install make make
python instalado y luego instale el paquete de dependencia, instalación de pip -r requisitos.txt
La función principal de Python es convertir el modelo llama2 original al formato binario .bin
introducción al proyecto github
Usando el código de este repositorio, puede entrenar la arquitectura Llama 2 LLM desde cero en PyTorch, luego exportar los pesos a un archivo binario y cargarlo en un archivo C simple de 500 líneas (run.c) que realiza inferencia del modelo. Alternativamente, puedes cargar, ajustar e inferir Meta's Llama 2 (pero esto todavía se está perfeccionando activamente). Como tal, este repositorio es una solución de inferencia y capacitación "completa" para Llama 2 LLM con énfasis en el minimalismo y la simplicidad. Podría pensar que necesita un LLM con muchos miles de millones de parámetros para realizar cualquier tarea significativa.