Comencemos la pelea ~ El modelo SOTA más pequeño: Mistral 7B, aplastando a LLaMA2 13B y LLaMA1 34B en todos los aspectos.

6d50182ae02eff88420e0f2587d2ad1a.png

Intercambio de procesamiento del lenguaje natural de aprendizaje profundo

El equipo de Mistral AI se enorgullece de lanzar Mistral 7B, el modelo de lenguaje más pequeño y potente hasta la fecha.

Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

Introducción a Mistral 7B

Mistral 7B es un modelo de 7,3 mil millones de parámetros con las siguientes características:

  • Mejor que Llama 2 13B en todos los puntos de referencia

  • Mejor que Llama 1 34B en muchos puntos de referencia

  • Se acerca al rendimiento de CodeLlama 7B en código y se desempeña bien en tareas en inglés

  • Uso de atención de consultas agrupadas (GQA) para acelerar la inferencia

  • Maneje secuencias más largas con menos costo usando Sliding Window Attention (SWA)

Lanzamos Mistral 7B bajo la licencia Apache 2.0, que se puede utilizar sin restricciones.

  • Con nuestra implementación de referencia [1] , descargue [2] y utilícela en cualquier lugar (incluso localmente)

  • Implementarlo en cualquier nube (AWS/GCP/Azure) usando vLLM Inference Server [3] y skypilot

  • Úselo en HuggingFace [4]

Mistral 7B es fácil de ajustar en cualquier tarea. Como demostración, proporcionamos un modelo optimizado para chat que supera al modelo de chat Llama 2 13B.

Detalles de rendimiento

Comparamos el Mistral 7B con la serie Llama 2 y volvimos a realizar la evaluación de todos los modelos para una comparación justa.

873f61c28ee5d0f20e7e54cd1ba1d0d0.png

Rendimiento de Mistral 7B y diferentes modelos de Llama en varios puntos de referencia. Para realizar comparaciones precisas, todas las métricas de todos los modelos se reevaluan a través de nuestro proceso de evaluación. El Mistral 7B es significativamente mejor que el Llama 2 13B en todas las métricas y es comparable al Llama 34B (dado que el Llama 2 34B no está lanzado, informamos los resultados del Llama 34B). También supera con creces a otros modelos en puntos de referencia de código e inferencia.

Estos puntos de referencia se clasifican por tema de la siguiente manera:

  • Razonamiento de sentido común: 0-shot de Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge y CommonsenseQA.

  • Conocimiento mundial: un 5-shot con NaturalQuestions y TriviaQA.

  • Comprensión de lectura: 0 disparos de BoolQ y QuAC.

  • Matemáticas: GSM8K de 8 disparos con maj@8 y MATEMÁTICAS de 4 disparos con maj@4

  • Código: MBPP de 0 y 3 disparos de Humaneval

  • Resultados resumidos principales: MMLU de 5 tomas, BBH de 3 tomas y evaluación AGI de 3 a 5 tomas (solo preguntas de opción múltiple en inglés)

93750da9153df2e3e167d9732e57352c.png

Una métrica interesante para comparar el rendimiento de los modelos en un plano de costo/rendimiento es calcular el "tamaño de modelo equivalente". En términos de razonamiento, comprensión y razonamiento STEM (MMLU), el rendimiento del Mistral 7B es equivalente al del Llama 2, que es más de tres veces mayor. Esto significa que se obtienen ventajas considerables en términos de ahorro de memoria y aumento del rendimiento.

342c79e27f393f37cbb5a60b5daeabba.png

Resultados de Mistral 7B y Llama 2 (7B/13/70B) en MMLU, razonamiento de sentido común, conocimiento del mundo y comprensión lectora. Mistral 7B supera en gran medida a Llama 2 13B en todas las evaluaciones, y solo tiene un desempeño comparable en el punto de referencia de conocimiento (esto puede deberse a su número limitado de parámetros, lo que limita la cantidad de conocimiento que puede comprimir).

NOTA: Existen diferencias importantes entre nuestra evaluación y la del artículo LLaMA2:

  • Para MBPP, utilizamos un subconjunto verificado manualmente

  • Para TriviaQA, no proporcionamos información de contexto de Wikipedia.

Flash y Furioso: Deriva de la atención

Mistral 7B utiliza un mecanismo de atención de ventana deslizante (SWA) (Child et al., Beltagy et al.), donde cada nivel se centra en los 4.096 estados ocultos principales. La principal mejora, y el motivo del estudio inicial, es que el coste computacional es linealmente O(sliding_window.seq_len). En la práctica, los cambios realizados en FlashAttention y xFormers dieron como resultado una aceleración 2x ​​con una longitud de secuencia de 16k y una ventana de 4k. Muchas gracias a Tri Dao y Daniel Haziza por ayudarnos a incluir estos cambios en un calendario apretado.

La atención de la ventana deslizante utiliza capas apiladas del Transformador para centrarse en el pasado más allá del tamaño de la ventana: los tokens i en la capa k se centran en los tokens [i-sliding_window, i] en la capa k-1. Estos tokens se refieren a tokens [i-2*sliding_window, i]. Los niveles superiores tienen información de un pasado más lejano que el que implica el modo atencional.

0b984dd922478ca1aed356c9495259a8.png

Finalmente, una capacidad de atención fija significa que podemos limitar nuestro caché al tamaño de tokens de ventana deslizante, usando un búfer giratorio (lea nuestro repositorio de implementación de referencia [5] para obtener más información ) . Esto ahorra la mitad de la memoria caché al inferir secuencias de longitud 8192 sin afectar la calidad del modelo.

Ajustes de chat para Mistral 7B

Para demostrar las capacidades de generalización de Mistral 7B, lo ajustamos utilizando el conjunto de datos de instrucciones disponible públicamente en HuggingFace. Sin trucos ni datos de propiedad. El modelo resultante, Mistral 7B Instruct [6] , supera a todos los modelos 7B en MT-Bench [7] y es comparable al modelo de chat 13B.

cb8f96ac8033d3d5e752237596fc6420.png

El modelo Mistral 7B Instruct es una demostración rápida de que el modelo base se puede ajustar fácilmente para lograr un rendimiento atractivo. Esperamos trabajar con la comunidad para explorar formas de permitir, en última instancia, que estos modelos cumplan con los marcos regulatorios para su implementación en entornos donde se requiere regulación de producción.

Este artículo hace referencia a la dirección original [8] .

Referencias

[1]

implementación de referencia: https://github.com/mistralai/mistral-src

[2]

Descargar: https://files.mistral-7b-v0-1.mistral.ai/mistral-7B-v0.1.tar

[3]

servidor de inferencia y skypilot: https://docs.mistral.ai/cloud-deployment/skypilot

[4]

AbrazandoCara: https://huggingface.co/mistralai

[5]

repositorio de implementación de referencia: https://github.com/mistralai/mistral-src

[6]

Instrucción Mistral 7B: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1

[7]

MT-Bench: https://arxiv.org/abs/2306.05685

[8]

Dirección original: https://mistral.ai/news/annunciando-mistral-7b/


Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/133398027
Recomendado
Clasificación