Mistral AI lanza Mistral 7B, un modelo con 7.300 millones de parámetros

Introducción La startup francesa de inteligencia artificial Mistral AI anunció el lanzamiento de su primer modelo de lenguaje grande, Mistral 7B, que se afirma es el modelo de lenguaje más potente de su tamaño hasta la fecha; es de código abierto bajo la licencia Apache-2.0 y se puede utilizar completamente gratis Cualquier restricción.

Mistral AI, una startup de seis meses, recaudó una enorme cantidad de 118 millones de dólares en financiación inicial en junio, lo que se dice que es la ronda inicial más grande en la historia europea. Mistral 7B es un modelo con 7,3 mil millones de parámetros. La compañía afirma que el Mistral 7B tuvo un desempeño significativamente mejor que el Llama 2 7B y 13B y a la par del Llama 34B en pruebas comparativas que cubren una variedad de tareas.

En la prueba de comprensión del lenguaje multitarea (MMLU) a gran escala que abarca 57 materias, incluidas matemáticas, historia de EE. UU., informática, derecho, etc., la precisión del modelo Mistral 7B fue del 60,1%, y la precisión de Llama 2 7B y 13B fue ligeramente superior, respectivamente, 44,4% y 55,6%.

Mistral 7B también superó a ambos modelos Llama en precisión en pruebas de razonamiento de sentido común y comprensión lectora. En la prueba de conocimiento mundial, Llama 2 13B estuvo a la par con Mistral 7B, lo que según Mistral probablemente se debió al número limitado de parámetros del modelo, lo que limita la cantidad de conocimiento que puede comprimir.

La única área en la que Llama 2 13B es comparable a Mistral 7B es la prueba de conocimiento mundial, que según Mistral "puede deberse al número limitado de parámetros en Mistral 7B, lo que limita la cantidad de conocimiento que puede comprimir".

En términos de tareas de codificación, aunque Mistral afirma que el rendimiento de Mistral 7B ha mejorado enormemente, los resultados de las pruebas comparativas muestran que todavía no supera al CodeLlama 7B ajustado. En las pruebas Humaneval de 0 disparos y MBPP de 3 disparos, las tasas de precisión de CodeLlama 7B fueron del 31,1% y 52,5% respectivamente, mientras que Mistral 7B fue del 30,5% y 47,5% respectivamente.

Mistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7BMistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7B

Mistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7BMistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7B

Mistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7BMistral AI lanza un modelo con 7,3 mil millones de parámetros, Mistral 7B

Mistral AI dice que Mistral 7B utiliza atención de consultas agrupadas (GQA) para una inferencia más rápida y atención de ventana deslizante (SWA) para manejar secuencias más largas a menor costo.

"Mistral 7B emplea SWA, donde cada capa se centra en los 4096 estados ocultos anteriores. La principal mejora, y el motivo del estudio original, es el coste computacional lineal de O (sliding_window.seq_len). En aplicaciones prácticas, esto se hace para FlashAttention y xFormers Los cambios dan como resultado una aceleración 2x ​​con una longitud de secuencia de 16k y una ventana de 4k."

Además, la compañía planea aprovechar este trabajo y lanzar un modelo más grande capaz de razonar mejor y admitir múltiples idiomas, que se espera que se presente en 2024.

Supongo que te gusta

Origin blog.csdn.net/weixin_43223083/article/details/133903007
Recomendado
Clasificación