Charla en profundidad 丨 Qué documentos vale la pena leer detrás del gran modelo de "Zidong Taichu" (1)

Original: Tan Jing

Nadie quiere esperar, nadie quiere quedarse atrás.

Los papeles frescos están de moda y se convierten en uno de los símbolos del rápido desarrollo de los modelos grandes.La gente usa el verbo errante "to brush papers" para reemplazar otra acción bastante seria, "read papers".

Los artículos se consideran "libros de texto" y "nuevos conocimientos", y escribir artículos en el sitio web arXiv se ha convertido en una rutina diaria.

Más que eso, los lectores de artículos también se han expandido rápidamente de investigadores científicos a inversores, investigación de inversiones, empresarios, profesionales de IA y medios tecnológicos.

Los que están ansiosos por ingresar a la industria "saladamente quieren aprender a morir";

Los que no usaron el modelo grande estaban "disgustados";

De la Fiesta A a la Fiesta B, las personas escribieron "no reconciliados" en sus rostros, y algunos incluso cambiaron de "estable" a "hambriento", y de "esperar y ver" a "práctico".

Un fabricante nacional de nube inteligente en el noroeste de Beijing ha incluido "hardware + indicadores comerciales" en una cotización de precios, que se ha convertido en una cotización modelo a gran escala; Demostración: cómo implementar el modelo grande de código abierto LLaMA.

Debido a la restricción de los términos de código abierto, LLaMA no se puede utilizar comercialmente. La parte A no quiere esperar más, al menos aprender, aunque el "despliegue" solo se quede en el enlace "demostración".

Los documentos de instituciones como OpenAI, Microsoft y Google en los Estados Unidos son buscados por todos por su alto grado de liderazgo; después de que el modelo grande de código abierto ingrese al mercado, puede probar e investigar sobre el modelo de código abierto, por lo que como para aumentar la comprensión del modelo grande y su sistema completo.

Lo que más espero es tener una conversación profunda con científicos que tienen experiencia personal y tener una conversación profunda con científicos que han entrenado modelos grandes.

Afortunadamente, conversé con el Dr. Zhang Jiajun, vicepresidente del Instituto de Inteligencia Artificial de Wuhan (en lo sucesivo, "Instituto Wuzhi") y, al mismo tiempo, también es profesor de la Academia de Ciencias de la Universidad de China. .

El Instituto Wuzhi y el Instituto de Automatización de la Academia de Ciencias de China desarrollaron conjuntamente el modelo grande "Zidong Taichu" , y hay muchos documentos detrás de él que vale la pena leer detenidamente. Como autor y asesor de muchos artículos de alta calidad, el profesor Zhang Jiajun también es muy adecuado para responder a estas preguntas.

Antes de entrar en la tesis, la primera pregunta que le hago al Dr. Zhang Jiajun es:

"¿Cuál es la relación entre hacer un modelo grande que compita con GPT-4 y publicar artículos académicos de alta calidad en el campo?"

Esta es una pregunta tanto académica como aplicada, y se necesita mucho trabajo para explicarla y comprenderla.

Él dijo: "En el campo de la tecnología de modelos a gran escala, los artículos se publican en las principales conferencias académicas o revistas académicas, y el rendimiento de la mayoría de los algoritmos se logra en un determinado conjunto de datos (generalmente a pequeña escala), reemplazado por un modelo grande , gran poder de cómputo, gran cantidad de datos, ideas en papel y diseño no necesariamente funcionan".

Me dio un ejemplo:

Consideramos este papel de alta calidad como uno de los triatlones, natación o ciclismo. En otras palabras, los tres eventos no son suficientes, pero el "triatlón" es suficiente.

Cada artículo en las "Dimensiones Múltiples" está lleno de desafíos, y cada papel principal no será fácil.

Como el software de IA más inteligente de la historia, el modelo grande GPT4 es un sistema de ingeniería complejo. Esto es como, GPT4 es una carrera de larga distancia compuesta por multideportes ironman.

El modelo grande requiere una gran cantidad de tecnologías centrales y el proyecto es difícil.

Su punto de vista es que la maqueta grande no está hecha de papeles, sino que también es inseparable de los papeles.

Estos documentos clásicos, así como los documentos y códigos de modelos grandes de código abierto, ya son muy importantes para la ingeniería de modelos grandes. Crear un modelo grande, o usar la práctica de la ingeniería para producir un modelo grande, ya no es posible sin los documentos clásicos, y muy pocas personas comienzan desde cero y ejecutan un modelo grande de principio a fin.

Las personas usan las ideas en el documento para reproducirlas con código fuente abierto, o agregan algo de su propio código, después de un ajuste fino, finalmente obtienen su propio modelo grande.

Dijo que publicar artículos de alta calidad en el campo de los modelos grandes es como experimentar y verificar ideas efectivas en un ejercicio específico en los deportes Ironman.

Sin embargo, la tesis no se puede copiar al tema de "construir un modelo grande", sino a acumular experiencia y aumentar la comprensión de la ingeniería compleja de modelos grandes.

O, si ha trabajado tanto para publicar un artículo de alta calidad, puede ser "0" para ayudarlo a construir un modelo grande.

De esta parábola se sigue que:

Conseguir incluso "más" comprensión del gran modelo no es una cuestión sencilla. Incluso puedes usar expresiones en prosa como "Una pulgada adentro, una pulgada de alegría". Tal vez una gran cantidad de esfuerzos mentales y físicos son inútiles en absoluto, o incluso un camino equivocado, dando marcha atrás.

La realización de ingeniería compleja es a la vez difícil y cruel. Lo ames o lo odies, los periódicos se actualizan casi todos los días.

Bajo la ola de modelos grandes, la gente presta más atención a la puntualidad de los artículos que a la autoridad de los artículos. El sitio web arXiv mantenido por la Universidad de Cornell en los Estados Unidos muestra una importancia única en este momento.

Muchos artículos clásicos también se publican en el sitio web arXiv, y todos quieren acelerar la "publicación" de artículos. El sitio web arXiv tiene todos los clásicos y la velocidad, lo que hace que su estado sea inigualable.

Este sitio web para trabajos académicos asume el papel de un "exprés de resultados", y la gente busca "moverse rápido" en lugar de "estable y estable". "Un paso más rápido" en lugar de "un paso más perfecto" según las normas académicas.

El Dr. Zhang Jiajun dijo: "Del mismo modo, el artículo de BigTrans de Wu Zhiyuan también se publica en el sitio web arXiv".

Wuzhiyuan BigTrans: permita que los modelos de idiomas grandes tengan más de 100 capacidades de idioma

Enfatizó: "El documento BigTrans del Instituto Wuzhi no persigue la innovación de las ideas académicas (ideas). En la situación actual, creo que la innovación integrada y la innovación aplicada también son muy importantes. Las revistas académicas son muy importantes en la revisión de artículos y grandes. ingeniería de modelos a escala La innovación en la práctica tiene su significado, y son dos direcciones completamente diferentes ".

La innovación del pensamiento académico es efectiva para la publicación de artículos, pero puede no serlo en el caso de big data y parámetros a gran escala.La construcción de un modelo grande es un requisito integral.

Dicho esto, leamos el artículo detenidamente.

primer papel

Título del trabajo:

AAAI-2022: traducción automática neuronal multilingüe basada en la diferenciación de parámetros

Fecha de lanzamiento del papel: 2022

Introducción al papel:

Los modelos de idiomas grandes a menudo necesitan lidiar con múltiples idiomas y múltiples tareas. Cómo compartir parámetros en el modelo entre cada idioma y cada tarea es un tema muy crítico. Tomando como ejemplo un gran modelo de traducción multilingüe, proponemos un método novedoso basado en la diferenciación de parámetros, que permite que el modelo decida qué parámetros deben ser específicos del idioma durante el entrenamiento.

Inspirado en la diferenciación celular, en nuestro método, cada parámetro genérico se puede diferenciar dinámicamente en parámetros específicos del idioma. Definimos además el criterio de diferenciación de parámetros como la similitud de gradiente entre tareas. Si los gradientes de diferentes tareas en un parámetro entran en conflicto, es más probable que este parámetro se diferencie en tipos específicos del idioma. Los experimentos en conjuntos de datos multilingües muestran que nuestro método logra mejoras significativas sobre los métodos de referencia con un pequeño aumento en el tamaño de los parámetros. Los experimentos analíticos revelan además que las estrategias de intercambio de parámetros generadas por nuestro método están estrechamente relacionadas con la similitud de las características lingüísticas. El trabajo relacionado se publicó en AAAI-2022, la principal conferencia internacional de inteligencia artificial.

Profesor Zhang Jiajun

Vicepresidente del Instituto de Inteligencia Artificial de Wuhan

El transformador se ha convertido en la estructura básica de los modelos grandes y es una "mina de oro" que vale la pena excavar. Una comprensión profunda de Transformer, el buen uso y la superación de sus deficiencias inspirarán el trabajo de modelos grandes. Por lo tanto, los científicos de IA han estado explorando y extrayendo el valor de Transformer. Los autores del primer artículo propusieron un método para múltiples tareas para compartir un conjunto de parámetros de Transformador, es decir, parámetros de modelo compartido.

En primer lugar, existen similitudes y diferencias entre los modelos para diferentes tareas. En términos de similitudes, por ejemplo, la traducción automática y el resumen inteligente en el procesamiento del lenguaje natural son dos tareas diferentes, pero también tienen algo en común: primero deben comprender y luego generar un contenido de texto. En términos de diferencias, por ejemplo, algunos parámetros son exclusivos de la tarea de resumen inteligente.

¿Por qué los modelos grandes necesitan compartir parámetros?

Sin parámetros compartidos, el modelo grande pierde su capacidad general. Habrá muchos defectos Usar un modelo para manejar tareas de traducción y otro modelo para manejar tareas visuales, un modelo para cada tarea conduce a una grave pérdida de recursos. Más que eso, los "parámetros compartidos" pueden entenderse esencialmente como transferencia de conocimiento entre tareas. Hay puntos en común entre muchas tareas, sin compartir parámetros no se puede lograr la transferencia de conocimiento, por ejemplo, si la traducción está bien hecha, se transferirá al resumen.

Dado que se comparten parámetros entre modelos, habrá diferencias en el grado de compartición. Entre modelos unimodales, puede haber más parámetros compartidos. Puede haber menos parámetros compartidos entre modelos de diferentes modalidades. De hecho, actualmente no existe una métrica para medir la diferencia entre diferentes tareas, pero esa medida es muy valiosa.

Los autores del artículo están resolviendo: ¿cómo decidir qué parámetros se comparten y qué parámetros no se comparten según la similitud entre las tareas? Los autores del artículo quieren usar métodos matemáticos para medir la diferencia y luego quieren hacer un buen trabajo compartiendo parámetros. En el objetivo de "hacerlo bien", hay un "punto de equilibrio": cuando se garantiza que el rendimiento del modelo será bueno, esperamos compartir tantos parámetros como sea posible.

Segundo y tercer escrito

Título del trabajo:

ACL-2021: Calibración de atención para transformador en traducción automática neuronal

IEEE/ACM TASLP-2022: Análisis de atención y calibración para transformadores en generación de lenguaje natural.

Fecha de lanzamiento del papel: 2021

Introducción al papel:

El modelo de atención (Mecanismo de atención) ahora es una estructura central del modelo Transformador, que puede generar dinámicamente un vector de peso de atención de acuerdo con el estado de decodificación actual, correspondiente a diferentes palabras de entrada, para enfocarse selectivamente en diferentes palabras de entrada. Sin embargo, la investigación existente muestra que los modelos de atención no pueden enfocarse con precisión en la entrada más relevante para la salida actual. Teniendo en cuenta que el desempeño del mecanismo de atención afecta directamente el efecto final del modelo de Transformador, especialmente en el desempeño de la generación de lenguaje natural, proponemos un método de generación de lenguaje natural basado en la corrección del mecanismo de atención de Transformador, para que el mecanismo de atención preste más atención a El modelo genera palabras de entrada influyentes.

Primero, el método introduce un modelo de ajuste fino basado en máscaras , que evalúa automáticamente el impacto de diferentes entradas en la salida actual al observar los cambios en la salida del modelo después de reducir el peso de atención de ciertas palabras de entrada. Luego, de acuerdo con el tamaño de influencia aprendido por el modelo de ajuste fino, el peso de atención obtenido por las palabras de entrada con alta influencia aumenta de manera apropiada. Para integrar la distribución de atención corregida en la distribución de atención original, este método propone tres métodos de fusión: ponderación de peso fijo, mecanismo de activación y algoritmo de recocido.

Los experimentos muestran que el método propuesto puede mejorar efectivamente el rendimiento de la generación de lenguaje natural, como la traducción automática y el resumen automático. A través del análisis, se puede encontrar que la distribución del peso de atención corregida está más dispersa en las capas inferiores y más concentrada en las capas superiores, y los pesos de atención con mayor entropía deben corregirse más. Este trabajo se publicó en ACL-2021, la principal conferencia sobre procesamiento del lenguaje natural, y en IEEE/ACM TASLP-2022, una revista de renombre internacional sobre el lenguaje del habla.

(Estos dos documentos son una serie de trabajos sobre un problema)

Profesor Zhang Jiajun

Vicepresidente del Instituto de Inteligencia Artificial de Wuhan

El principio de la capacidad del modelo grande GPT para generar texto es utilizar la información anterior como condición para predecir la distribución de probabilidad de la próxima aparición de diferentes palabras. GPT es el Decodificador en el modelo Transformador. La parte más importante y central del modelo Transformer es el mecanismo de autoatención. La explicación simple es: el tamaño de la atención determina la "contribución de la entrada a la salida". Es decir, cuánto contribuye la "entrada" a lo que genera el modelo (salida). Este asunto es como leer una historia y adivinar el final de la historia.Una forma es ubicar qué personaje de la obra jugará un papel clave en el final de la historia.

¿Qué clase de estado es este? Una es tratar de encontrar la mayor certeza cuando hay incertidumbre.

Porque el modelo genera palabras es un problema de probabilidad. Por ejemplo, el resumen del artículo es para extraer las partes importantes del artículo. Por lo tanto, el texto de salida debe reflejar la parte más importante del artículo de entrada.

El método antiguo equivale a dar una nota alta a quien sea importante. Los puntos determinan la importancia. La forma anticuada específica de calcular la "puntuación" es calcular la distribución de los pesos de atención sobre la entrada. Este método se basa en ponderaciones, que se utilizan para juzgar la importancia. Además, si el peso es alto, creemos que juega un papel importante en la producción y contribuye mucho a la producción, y viceversa. Desafortunadamente, la salida del modelo puede no ser confiable. Esto anula la validez de la metodología de "puntuación". Por lo tanto, el autor del artículo adoptó un método para tratar de descubrir fundamentalmente qué entradas juegan un papel clave en la salida.

El nuevo enfoque es apuntar directamente qué partes son importantes para la "salida". Lo llamamos el enfoque de "máscara". Debido a que el mecanismo de atención no refleja la importancia de la "salida", debe corregirse. Deje que este mecanismo "encuentre los personajes clave que realmente afectan el final de la historia".

¿Qué significa la máscara aquí? La llamada máscara consiste en eliminar una determinada palabra de la entrada y luego dejar que el modelo prediga la palabra "eliminada". La acción de encubrir todavía ocurre aquí, la diferencia es comparar la entrada y la salida antes y después de encubrir y observar qué tan grande es el cambio. Poco cambio, poco efecto. Cuanto mayor sea el cambio, mayor será el efecto. Si solo se cubre el 10% de las palabras, el contenido del resultado cambiará mucho. Explique que el 10% de las palabras son importantes. Después de todo, el objetivo de este documento es mejorar el rendimiento del mecanismo de atención y mejorar el rendimiento de Transformer.

De hecho, aunque se utilice el mismo método, el efecto puede ser diferente en tareas diferentes. El autor del artículo solo hizo experimentos en tareas de dos generaciones de procesamiento del lenguaje natural. Para ampliar a todas las tareas, la carga de trabajo sigue siendo muy grande.

cuarto papel

Título del trabajo:

ICASSP-2023: ajuste del adaptador con mecanismo de atención consciente de tareas

Fecha de lanzamiento del papel: 2023

Introducción al papel:

El ajuste fino eficiente de los parámetros del modelo de lenguaje grande ajusta solo las capas simples de alimentación hacia adelante insertadas en el modelo de lenguaje grande (LLM) durante la transferencia de tareas descendentes, aunque su objetivo es aprender representaciones relevantes para la tarea, su entrada todavía es de tarea- módulo independiente y fijo de atención de múltiples cabezas (MHA), lo que lleva a la infrautilización de la información contextual en varias tareas posteriores. Intuitivamente, MHA debe depender de la tarea y puede enfocarse en diferentes contextos en diferentes tareas posteriores. Por lo tanto, proponemos un mecanismo de atención consciente de tareas (TAM) para mejorar el algoritmo para un ajuste fino eficiente de los parámetros del modelo de lenguaje grande .

Específicamente, primero generamos representaciones de tareas para cada palabra utilizando un módulo de ajuste fino eficiente con parámetros dependientes de la tarea. Luego, aplicamos la representación de la tarea al proceso de cálculo de MHA, haciéndolo depender de la información de la tarea para agregar el contexto. Para generalizar el método a escenarios de tareas múltiples, diseñamos una arquitectura de ajuste fino eficiente con múltiples parámetros específicos de tareas, utilizando TAM para distinguir las demandas contextuales de varias tareas. Los resultados experimentales en una amplia gama de tareas de generación y comprensión del lenguaje natural demuestran la eficacia de nuestro método en escenarios de tareas únicas y múltiples. Además, los análisis extensos muestran que las incrustaciones de tareas generadas corresponden a la dificultad de la tarea y capturan las relaciones de la tarea. El trabajo relacionado se publicó en ICASSP-2023, una conferencia de renombre internacional en el campo de la información del habla.

quinto papel

Título del trabajo:

ICASSP-2023: El aprendizaje rápido unificado mejora los modelos de lenguaje preentrenados

Fecha de lanzamiento del papel: 2023

Introducción al papel:

La escala de los parámetros del modelo de lenguaje entrenados previamente es cada vez más grande, y el costo del ajuste fino de los parámetros también está aumentando. Cómo ajustar de manera eficiente modelos de lenguaje grandes para tareas posteriores se ha convertido en un desafío clave. Proponemos de manera innovadora un método eficiente de ajuste fino del modelo a gran escala que integra información a nivel de tarea y de muestra. Este método puede determinar dinámicamente la contribución de la información de la tarea y la información de la muestra para modelar la predicción de acuerdo con diferentes características de la tarea, de modo que el modelo La representación de sugerencias contiene Realizamos experimentos comparativos en una gran cantidad de tareas de comprensión del lenguaje natural en la prueba estándar internacional SuperGLUE. Los resultados muestran que, en comparación con los métodos de ajuste fino del modelo de preentrenamiento eficientes en los parámetros existentes, nuestro método puede funcionar mejor en la prueba estándar internacional SuperGLUE. El escenario (solo el ajuste fino del 0,12% de los parámetros ) se ha mejorado significativamente y se ha convertido en el mejor método de aprendizaje de pocos disparos en la actualidad. El trabajo relacionado se publicó en ICASSP-2023, una conferencia de renombre internacional en el campo de la información del habla.

Profesor Zhang Jiajun

Vicepresidente del Instituto de Inteligencia Artificial de Wuhan

Ambos documentos pertenecen a métodos de ajuste fino de parámetros eficientes.

El modelo de lenguaje grande (LLM) generalmente sigue el método de uso de "pre-entrenamiento + ajuste fino". Sin embargo, la escala del modelo se ha ampliado una y otra vez y el costo de ajuste se ha vuelto alto. Por lo tanto, la práctica a gran escala de ajustar todos los parámetros se ha convertido en una nueva forma de jugar, por ejemplo, solo ajustando algunos parámetros para tareas posteriores específicas, o agregando algunos parámetros adicionales, etc.

LoRA es uno de los métodos eficientes de ajuste fino de parámetros. Ya sea el primero o el segundo artículo, es ortogonal a LoRA (no depende de un algoritmo específico). Se puede usar en LoRa u otros algoritmos. El método propuesto en el segundo documento es general y se puede utilizar para adaptadores, sintonización rápida, sintonización de prefijo, LoRA.

¿Por qué necesitamos fusionar la información de tareas y muestras?

Las tareas posteriores consisten en un montón de muestras. Incluso si pertenecen a la misma tarea posterior, el nivel de dificultad varía mucho entre las muestras. Por lo tanto, los autores del artículo fusionan esta información a nivel de tarea y a nivel de muestra.

Los parámetros aprendidos deben ser el promedio de la tarea, porque los parámetros se aprenden de todas las muestras. Aunque la dificultad se promedia mientras se aprende, las muestras son únicas. Es decir, la distribución de dificultad de las muestras conocidas es diferente, y la representación promedio no puede manejar entradas diversas con diferentes dificultades.

Por ejemplo, un modelo gráfico de Vinsen. Es relativamente simple hacer que genere un gato naranja. Supongamos que se genera un gato real durmiendo en el pasillo del lado este del Palacio del Palacio Yanxi en Beijing. La generación de torres, pabellones, vigas talladas y edificios pintados, y paredes talladas de Junyu en edificios reales chinos tradicionales es relativamente difícil y la tarea es complicada. Los parámetros de ajuste fino aprendidos por modelos anteriores usan información promedio a nivel de tarea sin considerar la variabilidad de la muestra.

Aunque ambas son tareas vicencianas, la dificultad de las diferentes muestras varía mucho, si se utiliza el mismo conjunto de parámetros, las diferencias entre las muestras se ignoran. El método actual es: no solo decirle al modelo qué tarea está tratando, sino también decirle al modelo qué tan difícil es la muestra con la que está tratando.

El modelo aprende una distribución continua de palabras clave. Bajo una tarea como un diagrama de Vincent, genere imágenes difíciles con indicaciones ricas y complejas. Imágenes simples, con pocas palabras rápidas y breves. Este es el dominio de los ingenieros humanos de palabras clave. Sin embargo, los autores del artículo quieren aprender automáticamente, para realizar tareas sencillas, aprender palabras de indicación sencillas; para tareas complejas, aprender palabras de indicación complejas.

Cuanto más completa y detallada sea la consideración, y la dirección correcta, mejor será el rendimiento del modelo.

bronceado jing

queridos datos

De los cinco documentos interpretados esta vez, los tres primeros exploran la estructura del modelo y los dos últimos consideran cómo aplicar modelos grandes de manera eficiente.

Para continuar, después de volver a publicar, vaya a favoritos para comer cenizas. O la red no es buena y puede mirarla cuando hay muchos fragmentos de modelo.

Una cosa más