Llama 2 es un modelo de lenguaje grande desarrollado por Meta y es el sucesor de LLaMA 1. Llama 2 está disponible a través de AWS, Hugging Face, y está disponible gratuitamente para investigación y uso comercial. El modelo preentrenado de Llama 2 se entrena en 2 billones de tokens, lo que duplica la longitud del contexto en comparación con LLaMA 1. Su modelo de ajuste fino se completa con más de 1 millón de datos etiquetados manualmente.
Este blog contiene todos los recursos relevantes para ayudarlo a comenzar rápidamente. El anuncio oficial de Meta se puede encontrar aquí:
https://ai.meta.com/llama/
¿Qué es LLaMA 2?
Llama 2 lanzado por Meta es un nuevo modelo de lenguaje grande (LLM) de código abierto de SOTA. Llama 2 representa la versión de próxima generación de LLaMA y está disponible comercialmente. Llama 2 viene en 3 tamaños diferentes: parámetros entrenables 7B, 13B y 70B. En comparación con el LLaMA original, las nuevas mejoras incluyen:
-
Capacitado en 2 billones de datos de texto etiquetados
-
uso comercial permitido
-
De forma predeterminada, se utilizan 4096 vistas de texto frontal y posterior
-
El modelo 70B emplea atención de consultas agrupadas (GQA)
-
Disponible directamente en Hugging Face Hub
https://hf.co/models?other=llama-2
Desbloquea al instante Llama2
Hay varios patios de recreo diferentes para probar con Llama 2:
AbrazosChat
Usa el Llama 2 70B en nuestro lanzamiento de HuggingChat:
https://hf.co/chat
Aplicación Hugging Face Space
Brindamos experiencias con tres tamaños de modelos Llama 2 en la aplicación Space, a saber:
-
7b
https://hf.co/spaces/huggingface-projects/llama-2-7b-chat
-
13b
https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chat
-
70b
https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI
Perplejidad
La demostración de inteligencia artificial conversacional de Perplexity proporciona modelos Llama 2 en 7B y 13B:
https://llama.perplexity.ai/
El trabajo de investigación detrás de Llama 2
Llama 2 es un modelo básico de lenguaje grande entrenado en datos disponibles públicamente en la web. Además, Meta lanzó su versión Chat al mismo tiempo. La primera versión del modelo Chat fue un modelo SFT (Tuning supervisado). Después de eso, LLaMA-2-chat evoluciona gradualmente a través del aprendizaje reforzado con retroalimentación humana (RLHF). El proceso de RLHF utiliza técnicas de muestreo de rechazo y optimización de políticas proximales (PPO) para afinar aún más el chatbot. Meta actualmente solo publica la última versión RLHF (v5) del modelo. Si está interesado en el proceso detrás de este proceso, consulte:
-
Llama 2: código abierto y modelo de chat perfeccionado
https://arxiv.org/abs/2307.09288
-
Llama 2: Un increíble modelo de lenguaje grande de código abierto
https://www.interconnects.ai/p/llama-2-from-meta
-
Desmontaje completo de Llama 2
https://www.youtube.com/watch?v=zJBpRn2zTco
¿Qué tan bien se desempeña Llama 2, puntos de referencia?
meta dice:
Llama 2 supera a otros modelos de lenguaje de código abierto en numerosos puntos de referencia externos, que incluyen pruebas de inferencia, programación, competencia y conocimiento.
Puedes encontrar más información sobre su funcionamiento aquí:
-
Hugging Face Modelo de lenguaje grande de código abierto Tabla de clasificación
https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboard
-
Anuncio oficial del meta
https://ai.meta.com/llama/
Cómo escribir avisos para LLaMA 2 Chat
Llama 2 Chat es un modelo de diálogo de código abierto. Interactuar de manera efectiva con Llama 2 Chat requiere que proporcione las palabras adecuadas para obtener respuestas lógicas y útiles. Meta no eligió la estructura de palabras más sencilla.
Las siguientes son plantillas de palabras de solicitud para diálogos de uno o varios turnos. La plantilla de palabras de aviso sigue el proceso de entrenamiento del modelo, puede ver la descripción detallada aquí:
-
Llama 2 Papeles
https://hf.co/papers/2307.09288
-
Plantilla de word de solicitud de llama 2
https://gpus.llm-utils.org/llama-2-prompt-template/
diálogo de una sola ronda
<s>[INST] <<SYS>>
{
{ system_prompt }}
<</SYS>>
{
{ user_message }} [/INST]
múltiples rondas de diálogo
<s>[INST] <<SYS>>
{
{ system_prompt }}
<</SYS>>
{
{ user_msg_1 }} [/INST] {
{ model_answer_1 }} </s><s>[INST] {
{ user_msg_2 }} [/INST] {
{ model_answer_2 }} </s><s>[INST] {
{ user_msg_3 }} [/INST]
Cómo entrenar LLaMA 2
Dado que LLaMA 2 es un modelo de código abierto, se puede entrenar fácilmente mediante técnicas de ajuste como PEFT. Aquí hay algunos recursos de aprendizaje adecuados para entrenar su propia versión de LLaMA 2:
-
Guía extendida: Instrucciones para afinar Llama 2
https://www.philschmid.de/instruction-tune-llama-2
-
Ajuste fino de Llama 2 (7-70B) en Amazon SageMaker
https://www.philschmid.de/sagemaker-llama2-qlora
-
Ajuste fino con tecnología PEFT
https://hf.co/blog/zh/llama2#fine-tuning-with-peft
-
Ejemplos de modelos de llamas y soluciones proporcionadas por Meta
https://github.com/facebookresearch/llama-recipes/tree/main
-
¡La forma más fácil de ajustar LLAMA-v2 en su máquina local!
https://www.youtube.com/watch?v=3fsn19OI_C8
¿Cómo desplegar Llama 2?
Llama 2 se puede implementar en las instalaciones, utilizando servicios alojados como puntos finales de inferencia Hugging Face o a través de AWS, Google Cloud, Microsoft Azure, etc.
Puede consultar los siguientes recursos:
-
llama.cpp
https://github.com/ggerganov/llama.cpp
-
Implemente LLama 2 utilizando la interfaz de generación de texto y la terminal de inferencia
https://hf.co/blog/llama2#using-text-generation-inference-and-inference-endpoints
-
Implementación de LLaMA 2 70B con Amazon SageMaker
https://www.philschmid.de/sagemaker-llama-llm
-
Implemente Llama-2-13B-chat localmente a través de la interfaz GPU en su Mac M1/M2
https://gist.github.com/adrienbrault/b76631c56c736def9bc1bc2167b5d129