Configuración de un modelo LLM de código abierto para el desarrollo local

Si bien ChatGPT sigue siendo popular, los documentos internos de Google filtrados sugieren que la comunidad de código abierto se está poniendo al día y logrando avances importantes. Ahora podemos ejecutar modelos LLM de gran tamaño en GPU de consumo.

Entonces, si usted es un desarrollador que desea probar estos LLM en su entorno local y crear algunas aplicaciones con ellos, en este artículo analizaré algunas opciones que pueden ayudarlo.

Primera opción:

https://github.com/oobabooga/text-generation-webui?source=post_page-----dcbf80c8d818--------------------------------

La interfaz de usuario web de Gradio se puede utilizar para ejecutar casi cualquier LL.M. Admite diferentes formatos de LLM como GGML o GPTQ.

Segunda opción:

https://github.com/ggerganov/llama.cpp?source=post_page-----dcbf80c8d818--------------------------------

Biblioteca basada en AC/C++ centrada en ejecutar la inferencia LLM solo en la CPU, pero recientemente agregó soporte para la aceleración de GPU. Está diseñada como una biblioteca independiente, por lo que si desea crear una aplicación que se integre con ella, es posible que deba crear sus propios enlaces o utilizar la biblioteca de enlaces de la comunidad:

Nota: Para llama-cpp-python, si está utilizando una Mac Apple Silicon (M1), asegúrese de haber instalado una versión de Python que admita la arquitectura arm64. De lo contrario, la instalación creará una versión x86 de llama.ccp, que es 10 veces más lenta en Mac Apple Silicon (M1).

Tercera opción:

Si tiene una GPU decente con más de 8 GB de VRAM, puede optar por utilizar la cuantificación GPTQ para la GPU, como GPTQ-for-LLaMa.

Sin embargo, GPTQ-for-LLaMa solo proporciona ejemplos similares a CLI y documentación limitada. Por lo tanto, creé un repositorio de muestra que utiliza la implementación GPTQ-for-LLaMa y sirve el texto generado a través de una API HTTP.

https://github.com/mzbac/GPTQ-for-LLaMa-API?source=post_page-----dcbf80c8d818--------------------------------

En resumen, ya sea Gradio Web UI, llama.cpp o GPTQ-for-LLaMa, cada opción cumple con las diferentes capacidades de hardware para ejecutar LLM localmente. Haga su selección en función de sus recursos de hardware. ¡Sumérjase en el apasionante mundo del LL.M. y disfrute de la programación!

Supongo que te gusta

Origin blog.csdn.net/iCloudEnd/article/details/133479317
Recomendado
Clasificación