operación de razonamiento de la CPU local llama2

introducir

Este tutorial utiliza lenguaje C para implementar y ejecutar el modelo llama2, que puede realizar inferencias de manera eficiente en la CPU. Los contenidos principales son:
1 Configuración del entorno de ejecución, incluido C, Python
2 Convertir el modelo llama2 original a formato binario
3 Usar lenguaje C para inferir llama2

Instalación y configuración del entorno.

Descarga del proyecto:
git clone https://github.com/karpathy/llama2.c.git
Sistema operativo: ubuntu (lo probé en Windows y la compilación informará un error)
Entorno de software:
gcc make (si ya lo tienes , no necesita instalarlo)
python (usé 3.9, se espera que otras versiones estén bien)
instalación de gcc: apt install build-essential
make instalación: apt-get install make make
python instalado y luego instale el paquete de dependencia, instalación de pip -r requisitos.txt

La función principal de Python es convertir el modelo llama2 original al formato binario .bin

introducción al proyecto github

Usando el código de este repositorio, puede entrenar la arquitectura Llama 2 LLM desde cero en PyTorch, luego exportar los pesos a un archivo binario y cargarlo en un archivo C simple de 500 líneas (run.c) que realiza inferencia del modelo. Alternativamente, puedes cargar, ajustar e inferir Meta's Llama 2 (pero esto todavía se está perfeccionando activamente). Como tal, este repositorio es una solución de inferencia y capacitación "completa" para Llama 2 LLM con énfasis en el minimalismo y la simplicidad. Podría pensar que necesita un LLM con muchos miles de millones de parámetros para realizar cualquier tarea significativa.

Supongo que te gusta

Origin blog.csdn.net/artistkeepmonkey/article/details/132176369
Recomendado
Clasificación