Llama 2 es un modelo de lenguaje grande desarrollado por Meta y es el sucesor de LLaMA 1. Llama 2 está disponible a través de AWS, Hugging Face, y está disponible gratuitamente para investigación y uso comercial. El modelo preentrenado de Llama 2 se entrena en 2 billones de tokens, lo que duplica la longitud del contexto en comparación con LLaMA 1. Su modelo de ajuste fino se completa con más de 1 millón de datos etiquetados manualmente.

Este blog contiene todos los recursos relevantes para ayudarlo a comenzar rápidamente. El anuncio oficial de Meta se puede encontrar aquí:

https://ai.meta.com/llama/

¿Qué es LLaMA 2?

Llama 2 lanzado por Meta es un nuevo modelo de lenguaje grande (LLM) de código abierto de SOTA. Llama 2 representa la versión de próxima generación de LLaMA y está disponible comercialmente. Llama 2 viene en 3 tamaños diferentes: parámetros entrenables 7B, 13B y 70B. En comparación con el LLaMA original, las nuevas mejoras incluyen:

Capacitado en 2 billones de datos de texto etiquetados
uso comercial permitido
De forma predeterminada, se utilizan 4096 vistas de texto frontal y posterior
El modelo 70B emplea atención de consultas agrupadas (GQA)
Disponible directamente en Hugging Face Hub

https://hf.co/models?other=llama-2

Desbloquea al instante Llama2

Hay varios patios de recreo diferentes para probar con Llama 2:

AbrazosChat

Usa el Llama 2 70B en nuestro lanzamiento de HuggingChat:

https://hf.co/chat

Aplicación Hugging Face Space

Brindamos experiencias con tres tamaños de modelos Llama 2 en la aplicación Space, a saber:

7b

https://hf.co/spaces/huggingface-projects/llama-2-7b-chat
13b

https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chat
70b

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI

Perplejidad

La demostración de inteligencia artificial conversacional de Perplexity proporciona modelos Llama 2 en 7B y 13B:

https://llama.perplexity.ai/

El trabajo de investigación detrás de Llama 2

Llama 2 es un modelo básico de lenguaje grande entrenado en datos disponibles públicamente en la web. Además, Meta lanzó su versión Chat al mismo tiempo. La primera versión del modelo Chat fue un modelo SFT (Tuning supervisado). Después de eso, LLaMA-2-chat evoluciona gradualmente a través del aprendizaje reforzado con retroalimentación humana (RLHF). El proceso de RLHF utiliza técnicas de muestreo de rechazo y optimización de políticas proximales (PPO) para afinar aún más el chatbot. Meta actualmente solo publica la última versión RLHF (v5) del modelo. Si está interesado en el proceso detrás de este proceso, consulte:

Llama 2: código abierto y modelo de chat perfeccionado

https://arxiv.org/abs/2307.09288
Llama 2: Un increíble modelo de lenguaje grande de código abierto

https://www.interconnects.ai/p/llama-2-from-meta
Desmontaje completo de Llama 2

https://www.youtube.com/watch?v=zJBpRn2zTco

¿Qué tan bien se desempeña Llama 2, puntos de referencia?

meta dice:

Llama 2 supera a otros modelos de lenguaje de código abierto en numerosos puntos de referencia externos, que incluyen pruebas de inferencia, programación, competencia y conocimiento.

Puedes encontrar más información sobre su funcionamiento aquí:

Hugging Face Modelo de lenguaje grande de código abierto Tabla de clasificación

https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboard
Anuncio oficial del meta

https://ai.meta.com/llama/

Cómo escribir avisos para LLaMA 2 Chat

Llama 2 Chat es un modelo de diálogo de código abierto. Interactuar de manera efectiva con Llama 2 Chat requiere que proporcione las palabras adecuadas para obtener respuestas lógicas y útiles. Meta no eligió la estructura de palabras más sencilla.

Las siguientes son plantillas de palabras de solicitud para diálogos de uno o varios turnos. La plantilla de palabras de aviso sigue el proceso de entrenamiento del modelo, puede ver la descripción detallada aquí:

Llama 2 Papeles

https://hf.co/papers/2307.09288
Plantilla de word de solicitud de llama 2

https://gpus.llm-utils.org/llama-2-prompt-template/

diálogo de una sola ronda

<s>[INST] <<SYS>>
{
   
   { system_prompt }}
<</SYS>>

{
   
   { user_message }} [/INST]

múltiples rondas de diálogo

<s>[INST] <<SYS>>
{
   
   { system_prompt }}
<</SYS>>

{
   
   { user_msg_1 }} [/INST] {
   
   { model_answer_1 }} </s><s>[INST] {
   
   { user_msg_2 }} [/INST] {
   
   { model_answer_2 }} </s><s>[INST] {
   
   { user_msg_3 }} [/INST]

Cómo entrenar LLaMA 2

Dado que LLaMA 2 es un modelo de código abierto, se puede entrenar fácilmente mediante técnicas de ajuste como PEFT. Aquí hay algunos recursos de aprendizaje adecuados para entrenar su propia versión de LLaMA 2:

Guía extendida: Instrucciones para afinar Llama 2

https://www.philschmid.de/instruction-tune-llama-2
Ajuste fino de Llama 2 (7-70B) en Amazon SageMaker

https://www.philschmid.de/sagemaker-llama2-qlora
Ajuste fino con tecnología PEFT

https://hf.co/blog/zh/llama2#fine-tuning-with-peft
Ejemplos de modelos de llamas y soluciones proporcionadas por Meta

https://github.com/facebookresearch/llama-recipes/tree/main
¡La forma más fácil de ajustar LLAMA-v2 en su máquina local!

https://www.youtube.com/watch?v=3fsn19OI_C8

¿Cómo desplegar Llama 2?

Llama 2 se puede implementar en las instalaciones, utilizando servicios alojados como puntos finales de inferencia Hugging Face o a través de AWS, Google Cloud, Microsoft Azure, etc.

Puede consultar los siguientes recursos:

llama.cpp

https://github.com/ggerganov/llama.cpp
Implemente LLama 2 utilizando la interfaz de generación de texto y la terminal de inferencia

https://hf.co/blog/llama2#using-text-generation-inference-and-inference-endpoints
Implementación de LLaMA 2 70B con Amazon SageMaker

https://www.philschmid.de/sagemaker-llama-llm
Implemente Llama-2-13B-chat localmente a través de la interfaz GPU en su Mac M1/M2

https://gist.github.com/adrienbrault/b76631c56c736def9bc1bc2167b5d129

Hemos organizado todos los recursos sobre Llama 2 para ti