[Interpretación de artículos multimodales] Alinear antes de fusionar: aprendizaje de representación de visión y lenguaje con destilación de momento

Alinear antes de fusionar: aprendizaje de representación de visión y lenguaje con destilación de momento
  • Nombre: ALBEF
  • Palabras clave: Multimodal; aprendizaje contrastivo; Destilación del conocimiento
  • Año: 2021
  • Fuente: NeurIPS
  • Papel: https://arxiv.org/abs/2107.07651
  • Código: https://github.com/salesforce/ALBEF

Este documento presenta un modelo de lenguaje visual eficiente llamado ALBEF, que adopta el método de preentrenamiento de aprendizaje contrastivo, que puede aprender la rica relación entre imágenes y textos, y proporcionar mejor información para tareas posteriores, como responder preguntas visuales, clasificación de imágenes y generación de imágenes representación. ALBEF se compone principalmente de tres partes: codificador de imagen, codificador de texto y codificador multimodal, modelo de impulso. Sus objetivos de pre-entrenamiento incluyen principalmente funciones de pérdida por pérdida contrastiva, tarea de reconstrucción de lenguaje enmascarado y tarea de emparejamiento de imagen y texto. Además, los autores proponen un método llamado Momentum Distillation para aprender de pseudo-objetivos generados por modelos de impulso para el aprendizaje eficiente de pares ruidosos de imagen y texto. Los resultados experimentales muestran que ALBEF se desempeña bien en múltiples tareas posteriores y tiene amplias perspectivas de aplicación.

1 narración

El propósito del modelo de lenguaje visual es aprender representaciones multimodales de pares de imagen y texto a gran escala para mejorar el rendimiento de las tareas de lenguaje visual posteriores. La mayoría de los métodos actuales se basan en detectores de objetivos preentrenados para extraer las características de la imagen y luego usan un codificador multimodal para fusionar las características de la imagen y la incrustación de tokens.Aunque este método es efectivo, tiene tres limitaciones.

1) La función de región basada en el detector de objetos requiere un alto costo de anotación y un costo de cálculo, lo cual es efectivo pero no eficiente

2) Las características regionales de la imagen y los vectores de incrustación del texto se extraen en sus respectivos espacios de características, y la interacción de características solo se realiza en el codificador multimodal, que tiene ciertas dificultades de modelado.

3) Los textos de imagen a gran escala recopilados por la mayoría de las redes actuales tienen un cierto grado de ruido en el conjunto de datos, y los objetivos de preentrenamiento (MLM, ITM) de los métodos anteriores pueden estar sobreajustados, lo que degradará la capacidad de generalización de la red

Por lo tanto, en vista de las limitaciones anteriores, el autor propone un modelo de alineación antes de fusionar Primero, el codificador de características de imagen sin objetos y el codificador de texto se utilizan para extraer las características de la imagen y la entrada de texto respectivamente, y luego el codificador multimodal es se utiliza para fusionar el modo cruzado en la imagen de texto, la información modal, y utiliza la pérdida contrastiva de imagen-texto para alinear la información de características de diferentes modalidades. El modelo ALBEF tiene tres ventajas

(1) El modelo ajusta la alineación entre las características de la imagen y el texto, lo que facilita que los codificadores multimodales realicen el aprendizaje multimodal.

(2) Comprensión mejorada del codificador unimodal del significado semántico de imágenes y texto

(3) Se aprende un espacio común de baja dimensión para incrustar imágenes y textos, lo que permite que el objetivo de coincidencia de imagen y texto encuentre muestras más informativas al comparar la extracción de muestras negativas duras.

2 leer la historia

Además de ALBEF, existen algunos modelos de lenguaje visual importantes, como:

  • VisualBERT: use codificadores y decodificadores de Transformer para realizar tareas multimodales, modelos de flujo único y empalme de características de imagen de texto en la entrada
  • ViLBERT: utilice la incrustación bidireccional visual y de lenguaje para manejar tareas como la respuesta a preguntas visuales y la inferencia de lenguaje natural, el modelo de flujo dual, use el codificador de características de región y el codificador de texto para extraer características, y use la capa de transformador (codificador) para la atención conjunta interacción modal amplia
  • LXMERT: Mejorado sobre la base de ViLBERT, utilizando un extractor de funciones más potente y un mecanismo de interacción multimodal más complejo
  • UNITER: uso de codificadores y decodificadores de Transformer para realizar tareas multimodales, mientras se utilizan técnicas como el aprendizaje contrastivo y la destilación de conocimiento
  • ViLT: Preentrenamiento de modelos de lenguaje visual utilizando aprendizaje contrastivo para proporcionar representaciones multimodales poderosas para tareas posteriores. Modelo de flujo único, empalme de características antes de la entrada. Dado que el modelo de flujo único no puede extraer la característica de texto o imagen por separado, el autor pasó otra capa de pooler después de obtener la salida del codificador, el propósito es proyectar la salida en 2d para logits y elegir la probabilidad de registro como la mayor pérdida de ITM

Cada modelo tiene su estructura única y objetivos de entrenamiento previo, con el objetivo de aprender representaciones multimodales para mejorar el desempeño de las tareas posteriores. A continuación, puede comprender mejor el modelo ALBEF comparando el modelo de red y el objetivo de preentrenamiento.

2.1 Descripción general de la estructura de la red

Mire principalmente el modelo de flujo único VisualBERT, ViLT y la comparación entre el modelo de flujo dual ViLBERT y ALBEF

2.1.1 VisualBERT

inserte la descripción de la imagen aquí

VisualBERT es un poderoso modelo de lenguaje visual de transmisión única que emplea una arquitectura de codificador y decodificador Transformer para aprender representaciones multimodales para varias tareas posteriores. En el lado de entrada, VisualBERT acepta la concatenación de características de texto e imagen para obtener una representación conjunta de texto e imágenes.

Los objetivos de pre-entrenamiento de este modelo incluyen Modelado de lenguaje enmascarado (MLM) y Coincidencia de imagen y texto (ITM). MLM es un objetivo de modelado de lenguaje bajo el cual se entrena un modelo para predecir palabras enmascaradas en el texto de entrada. ITM es un objetivo bajo el cual se entrena un modelo para puntuar la similitud entre una imagen y la leyenda de texto correspondiente. Estos objetivos aseguran que VisualBERT pueda comprender la relación entre las entradas de texto e imagen y generar representaciones significativas que capturen el significado semántico de ambas modalidades.

VisualBERT utiliza una función de pérdida contrastiva para entrenar el modelo, con el objetivo de maximizar la similitud entre pares positivos de imagen y texto y minimizar la similitud entre muestras negativas. La función de pérdida de contraste incluye una medida de similitud y una medida de muestra negativa entre las entradas de imagen y texto, lo que anima al modelo a distinguir entre pares de imagen y texto similares y diferentes. Este método de entrenamiento permite que VisualBERT aprenda poderosas representaciones multimodales que se pueden usar para varias tareas posteriores.

inserte la descripción de la imagen aquí

En general, VisualBERT es un modelo muy eficaz para el aprendizaje de representaciones conjuntas de texto e imágenes y logra un rendimiento de última generación en diversas tareas visual-lingüísticas. Emplea una arquitectura de codificador y decodificador Transformer, junto con objetivos previamente entrenados y funciones de pérdida contrastiva, lo que lo convierte en una herramienta poderosa para el procesamiento del lenguaje natural y las tareas de visión por computadora que involucran datos multimodales.

ADVERTENCIA: Los párrafos anteriores son generados por GPT

2.1.2 ViLBERT

inserte la descripción de la imagen aquí

ViLBERT es un modelo de lenguaje visual avanzado que aprovecha el poder de BERT (Representación de codificador bidireccional de Transformer) para aprender representaciones conjuntas de imágenes y texto. ViLBERT es un modelo de dos flujos que consta de dos codificadores independientes: uno para procesar texto y otro para procesar imágenes. Cada codificador consta de varias capas de transformador, un tipo de arquitectura de red neuronal que ha tenido un gran éxito en el procesamiento del lenguaje natural y las tareas de visión por computadora.

La entrada de ViLBERT es una imagen y texto, donde la entrada de imagen es un conjunto de regiones visuales, cada una de las cuales está representada por un vector de características, y la entrada de texto es una oración compuesta por vectores de incrustación de palabras. La salida de ViLBERT es un vector que representa la relación entre la imagen y el texto.

Los objetivos previos a la capacitación de ViLBERT incluyen Modelado de lenguaje enmascarado (MLM) y Coincidencia de imagen y texto (ITM). MLM es un objetivo de modelado de lenguaje bajo el cual se entrena a ViLBERT para predecir palabras enmascaradas en el texto de entrada. ITM es un objetivo bajo el cual se entrena a ViLBERT para puntuar la similitud entre una imagen y la leyenda de texto correspondiente.

ViLBERT entrena el modelo utilizando una función de pérdida de contraste, cuyo objetivo es maximizar la similitud entre pares de imagen-texto positivos y minimizar la similitud entre muestras negativas. La función de pérdida de contraste incluye una medida de similitud y una medida de muestra negativa entre las entradas de imagen y texto, lo que anima al modelo a distinguir entre pares de imagen y texto similares y diferentes.

ADVERTENCIA: Los párrafos anteriores son generados por GPT

inserte la descripción de la imagen aquí

El diseño de ViLBERT es en realidad muy similar a la tarea de aprendizaje comparativo de ALBEF. Observando la figura 3(b), el objetivo de preentrenamiento utilizado por ViLBERT es la tarea de coincidencia de pares de imagen y texto. Específicamente, extrae el token IMG y la salida del codificador de texto. Desde el codificador de imagen El token CLS de los dos representa las características globales en sus respectivas modalidades, por lo que los dos se pueden multiplicar directamente para calcular la similitud, a fin de juzgar si la información del texto y la información de la imagen coinciden, y obtener la final salida de Alineado o No alineado.

De hecho, la figura (a) también es interesante, porque también hay un objetivo de entrenamiento para la reconstrucción de la máscara multimodal MML, por lo que no solo la reconstrucción de la máscara de texto (esto es familiar para todos, por lo que no entraré en detalles), sino también la imagen Reconstrucción de la máscara. La imagen aquí es en realidad una región característica (feature-region), es decir, la región extraída por el Faster-RCNN preentrenado. Obviamente, sus tamaños también son diferentes, por lo que no es factible predecir directamente los puntos de píxeles de esta región característica. Entonces, el autor ha cambiado su pensamiento aquí. Desde la perspectiva de los elementos individuales, debe haber diferencias en los valores de píxel de las diferentes regiones características, y desde la perspectiva de la región como un todo, debe haber diferencias en la distribución de diferentes regiones características, por lo que el autor predice directamente la distribución de las regiones características. , use la divergencia KL para medir la diferencia entre la distribución predicha y la distribución real, y minimice esta diferencia

concepto

La divergencia KL (Kullback-Leibler Divergence) es un método para medir la diferencia entre dos distribuciones de probabilidad. Se puede usar para comparar la similitud o diferencia entre dos distribuciones de probabilidad, y también se puede usar para evaluar la aproximación de una distribución de probabilidad a otra distribución de probabilidad.

oficial

DKL = ( PAGS ∣ ∣ Q ) = ∑ yo = 1 norte [ pags ( xi ) Iniciar sesión ⁡ pags ( xi ) − pags ( xi ) Iniciar sesión ⁡ q ( xi ) ] D_{KL}=(P||Q)=\ suma_{i=1}^{N}[p(x_i)\log p(x_i)-p(x_i)\log q(x_i)]DK L=( PAG ∣∣ Q )=yo = 1norte[ pag ( xyo)iniciar sesiónpag ( xyo)pag ( xyo)iniciar sesiónq ( ​​xyo)]

de los cuales PPP y Q representan dos distribuciones de probabilidad respectivamente, e i representa el i-ésimo elemento en el espacio muestral. Cuanto menor sea el valor de KL, más similares serán las dos distribuciones de probabilidad; cuanto mayor sea el valor de KL, menos similares serán las dos distribuciones de probabilidad.

Por ejemplo:

Los niños representan el 40% de la clase y las niñas el 60% Entonces la distribución de probabilidad del género de una persona aleatoria en la clase es Q = [0.4, 0.6]

Xiao Ming supone que los niños representan el 30% de la clase y las niñas el 70%, entonces la distribución de probabilidad ajustada de Xiao Ming P1 = [0.3, 0.7]

Xiaohong supone que los niños representan el 20% de la clase y las niñas el 80%, entonces la distribución de probabilidad ajustada de Xiaohong P2 = [0.2, 0.8]

KL 1 = [ 0.3 × log ⁡ ( 0.3 ) − 0.3 × log ⁡ ( 0.4 ) ] + [ 0.7 × log ⁡ ( 0.7 ) − 0.7 × log ⁡ ( 0.6 ) ] = 0.0216 KL_1=[0.3\times\log(0.3 )-0.3\veces\log(0.4)]+[0.7\veces\log(0.7)-0.7\veces\log(0.6)]=0.0216KL _1=[ 0.3×lo g ( 0.3 )0.3×lo g ( 0.4 )]+[ 0.7×lo g ( 0.7 )0.7×lo g ( 0.6 )]=0.0216

KL 1 = [ 0.2 × log ⁡ ( 0.2 ) − 0.2 × log ⁡ ( 0.4 ) ] + [ 0.7 × log ⁡ ( 0.8 ) − 0.8 × log ⁡ ( 0.6 ) ] = 0.0915 KL_1=[0.2\times\log(0.2 )-0.2\veces\log(0.4)]+[0.7\veces\log(0.8)-0.8\veces\log(0.6)]=0.0915KL _1=[ 0.2×lo g ( 0.2 )0.2×lo g ( 0.4 )]+[ 0.7×lo g ( 0.8 )0.8×lo g ( 0.6 )]=0.0915

KL 1 < KL 2 KL_1<KL_2KL _1<KL _2, por lo que la predicción de Xiao Ming está más cerca de Q

2.1.3 ViLT

inserte la descripción de la imagen aquí

ViLT (Vision-and-Language Transformer) es un modelo de lenguaje visual entrenado previamente mediante el aprendizaje contrastivo, diseñado para aprender representaciones multimodales para mejorar el rendimiento de las tareas posteriores. Específicamente, ViLT adopta un modelo de flujo único con concatenación de funciones antes de la entrada, y la entrada consta de funciones de texto e imagen.

La entrada a ViLT incluye información de imagen y texto. Entre ellos, la entrada de la imagen es un conjunto de características de la imagen, y cada característica se obtiene codificando una región diferente de la imagen. La entrada de texto es una oración compuesta de vectores de incrustación de palabras, que se pueden obtener a través del entrenamiento previo.

En la etapa de pre-entrenamiento, ViLT utiliza un método de aprendizaje contrastivo para maximizar la similitud entre muestras positivas y minimizar la similitud entre muestras negativas. Específicamente, el modelo utiliza una variedad de funciones de pérdida, incluidas medidas de similitud y medidas de muestra negativas entre entradas de imagen y texto, para alentar al modelo a distinguir entre pares de imagen y texto similares y diferentes. La función de pérdida utilizada por el modelo tiene como objetivo minimizar la distancia entre pares positivos de imagen y texto mientras maximiza la distancia entre muestras negativas. Este método de entrenamiento le permite a ViLT aprender poderosas representaciones multimodales que se pueden usar para varias tareas posteriores.

El objetivo de pre-entrenamiento de ViLT es utilizar el aprendizaje contrastivo para pre-entrenar un modelo de lenguaje visual con el fin de proporcionar poderosas representaciones multimodales para tareas posteriores. La salida del modelo es un vector que representa la relación entre la imagen y el texto. Este vector se puede utilizar para tareas posteriores, como la respuesta visual a preguntas, la clasificación de imágenes, la generación de imágenes, etc. ViLT está diseñado para aprender representaciones multimodales para mejorar el rendimiento de las tareas posteriores.

En general, ViLT es un modelo de lenguaje visual eficiente con poderosas capacidades de representación multimodal. Al usar el entrenamiento previo de aprendizaje contrastivo, ViLT puede aprender relaciones ricas entre imágenes y texto, proporcionando así mejores representaciones para tareas posteriores. El diseño de ViLT lo hace adecuado para una variedad de tareas posteriores y es un modelo con amplias perspectivas de aplicación en el campo del lenguaje visual.

ADVERTENCIA: Los párrafos anteriores son generados por GPT

inserte la descripción de la imagen aquí

Siento que después de que se propuso Transforemrs, el método de usar el detector de objetos para extraer características en el lado de la imagen se abandonó gradualmente, principalmente porque el consumo de cálculo de CNN es grande y el posprocesamiento de este método también es muy laborioso.

2.1.4 ALBEF

inserte la descripción de la imagen aquí

  • estructura de red

ALBEF incluye principalmente tres partes: 1) codificador de imágenes, que usa un transformador visual ViT-B/16 de 12 capas, que usa pesos preentrenados en ImageNet-1k para extraer características; 2) codificador de texto y codificador multimodal: las dos partes suman un bert -modelo base, es decir, es equivalente a usar un modelo bert desacoplado, la primera mitad se usa como codificador de texto y la segunda mitad se combina con tokens de imagen para el aprendizaje intermodal; 3) modelo de impulso, principalmente para un aprendizaje efectivo con ruido El par imagen-texto, los detalles específicos se discutirán más adelante

  • de entrada y salida

La entrada de ALBEF es la misma que la mayoría de las redes de dos flujos, es decir, las características visuales o las características de texto recibidas por los respectivos codificadores.

La salida tiene dos partes, una parte es la salida para el aprendizaje comparativo, y esta parte de la salida solo extrae el token cls para calcular la similitud; la otra parte es la salida multimodal, que se usa para tareas de reconstrucción de máscaras e imagen-texto emparejar tareas de emparejamiento;

  • Función de pérdida y objetivo de preentrenamiento

La primera es la pérdida de comparación, que usa las características generadas por el codificador de imagen y el codificador de texto para comparar, pero esta parte de la salida solo extrae el token cls para calcular la similitud y asignará este token 768-d a 256-d, y luego calcule la imagen y la similitud del texto, la fórmula se muestra en la figura a continuación, donde g es la capa de proyección lineal de 768→256
inserte la descripción de la imagen aquí

La segunda es la pérdida de modelado de la tarea de reconstrucción del lenguaje de la máscara. Esta parte utiliza principalmente información de texto contextual e imagen para la reconstrucción de la máscara, por lo que no entraré en detalles aquí.

inserte la descripción de la imagen aquí

Finalmente, está la pérdida de la tarea de coincidencia de imagen y texto. También utiliza el token cls del codificador multimodal como una representación conjunta multimodal y predice si coincide a través de una capa de proyección lineal.La función de pérdida es la siguiente

inserte la descripción de la imagen aquí

De hecho, al principio, no sabía la diferencia entre la comparación de imagen y texto ITC y la coincidencia de imagen y texto ITM, así que volví a mirar VisualBERT, ViLBERT y ViLT mencionados en la revisión anterior para obtener una pista.

Según tengo entendido, ITC utiliza principalmente la salida de una sola modalidad para el aprendizaje comparativo, mientras que ITM necesita usar la información en modalidad cruzada para emparejar Aunque ambos usan el token cls que representa información global, el token La información incluida tiene un enfoque diferente . Por lo tanto, en ITC, para calcular si el texto de la imagen está relacionado, es necesario multiplicar los dos para obtener una proyección de información conjunta, mientras que ITM proyecta directamente el token CLS final.

Pérdida total ALBEF/objetivo preentrenamiento total:

inserte la descripción de la imagen aquí

  • Destilación de momento

La mayoría de los pares de imagen y texto utilizados para el entrenamiento previo se recopilan de la red y, a menudo, contienen ruido. Por lo tanto, los pares de muestras positivas suelen tener una correlación débil, es decir, el texto contiene palabras que no están relacionadas con la imagen o la imagen contiene entidades que no se describen en el texto. Para el aprendizaje de ITC, el texto de muestra negativo de la imagen también puede coincidir con el contenido de la imagen. Para MLM, puede haber otras y diferentes palabras que puedan describir mejor la imagen. Pero las etiquetas one-hot de ITC y MLM penalizan todas las predicciones de etiquetas negativas, independientemente de su corrección.

Para abordar este problema, los autores proponen aprender de pseudoobjetivos generados por modelos de momento. El modelo Momentum es un modelo de maestro en evolución que contiene versiones de promedio móvil exponencial de codificadores unimodales y multimodales. Durante el entrenamiento, los autores entrenan el modelo base para que sus predicciones coincidan con las del modelo de momento. Para ITC, los autores primero calculan la similitud de imagen y texto utilizando características de un codificador unimodal de impulso y luego calculan pseudoobjetos.

inserte la descripción de la imagen aquí

Los autores muestran ejemplos de los 5 mejores candidatos en pseudoobjetos, capturando efectivamente la palabra o el texto asociado de la imagen.

inserte la descripción de la imagen aquí

2.2 Desempeño de tareas posteriores

Primero, el autor entrenó previamente en un total de 14,1 millones de conjuntos de datos conceptuales con ruido, y los resultados son los siguientes

inserte la descripción de la imagen aquí

La tabla 1 muestra el rendimiento de diferentes variantes en varias tareas posteriores. Básicamente, agregar nuevos objetivos de entrenamiento previo puede mejorar el rendimiento del modelo hasta cierto punto, y el rendimiento del modelo también se verá afectado por la escala del parámetro.

inserte la descripción de la imagen aquí

La Tabla 2-4 muestra que el rendimiento del modelo en la tarea posterior no se utiliza. El rendimiento de ALBEF en la tarea de recuperación de texto de imagen Flickr30k sigue siendo relativamente bueno, y la cantidad del parámetro es solo 1/28 de CLIP, lo que supera los 6 puntos.

inserte la descripción de la imagen aquí

De hecho, lo que más me interesa es la visualización del gráfico de atención cruzada que muestra el autor en el apéndice, se puede ver que el modelo no solo puede distinguir las entidades objetivas en el mundo real, sino también aprender relaciones o acciones abstractas. , como trabajar, usar, puede aprender información como antigua, ¡increíble!

revisar

  • P1 ¿Está completa la historia?

Creo que debería ser relativamente completo. Para los tres problemas planteados al principio: baja eficiencia del codificador de imágenes, baja interactividad de la información de entrada y baja capacidad de generalización de datos ruidosos, se proponen soluciones respectivamente: ViT-B/16 preentrenado, ITC&ITM, Momentum Distillation

  • Q2 ¿Dónde está la novedad de la historia?

Lo principal es desacoplar bert-base, que es la parte de la segunda pregunta. De hecho, este artículo no fue encontrado y estudiado al principio. Al principio, estaba leyendo un trabajo de pre-entrenamiento multimodal CoCa de CVPR2023 (explosión de rendimiento, intente entender y escriba un blog en dos días), la innovación de CaCo El punto es similar al de ALBEF Las innovaciones no son exactamente iguales, o son exactamente iguales Aquí hay una estructura de red de CoCa, así que leí este trabajo inicial primero.

inserte la descripción de la imagen aquí

Tanto ITC como ITM se utilizan en la historia de ALBEF, que es necesario y necesario, es necesario aprender la asociación de un solo modo en sus respectivos espacios, y aprender la información conjunta después de la atención cruzada.

  • P3 ¿Por qué piensa en desacoplar bert-base? ¿Hay alguna otra forma?

No pensé claramente, dejo un hueco

Supongo que te gusta

Origin blog.csdn.net/weixin_43427721/article/details/130140272
Recomendado
Clasificación