【论文笔记】BLIP-2: Aprendizaje previo de imágenes de lenguaje de arranque con codificadores de imágenes congeladas y lenguaje grande

1. Introducción 

BLIP-2 cierra la brecha de modalidad con un transformador de consulta liviano , que se entrena previamente en dos etapas. La primera etapa guía el aprendizaje de la representación del lenguaje visual a partir de un codificador de imágenes congeladas. La segunda etapa guía el aprendizaje generativo de visión a lenguaje a partir de un modelo de lenguaje congelado.

1.1 Motivación

es obtener un modelo de lenguaje visual en un modelo unimodal de lenguaje y visión listo para usar

1.2 Dificultades

El LLM no ve imágenes durante su preentrenamiento unimodal, por lo que congelarlas hace que la alineación del lenguaje visual sea particularmente desafiante.

1.3 Solución propuesta: QFormer

Q-Former es un transformador ligero que utiliza un conjunto de vectores de consulta que se pueden aprender para extraer características visuales de un codificador de imágenes congeladas.

En la primera etapa de pre-entrenamiento, realizamos un aprendizaje de la representación visual-lingüística, lo que obliga a Q-Former a aprender la representación visual más relevante para el texto.

En la segunda etapa de precapacitación, realizamos aprendizaje generativo de visión a lenguaje conectando la salida del Q-Former a un LLM congelado, y entrenamos el Q-Former para que la representación visual de su salida pueda ser interpretada por el LLM.

2. Método

2.1 Arquitectura modelo

  1. Q-Former consta de dos submódulos de transformadores que comparten la misma capa de autoatención : (1) un transformador de imágenes que interactúa con un codificador de imágenes congeladas para la extracción de características visuales, (2) que se puede usar como codificador de texto y texto convertidor utilizado como decodificador de texto.
  2. Se crea un conjunto de incrustaciones de consultas aprendibles como entrada para el convertidor de imágenes. Las consultas interactúan entre sí a través de capas de autoatención y con características de imágenes congeladas a través de capas de atención cruzada (insertadas cada dos bloques de transformadores)
  3. Interactúe con el texto a través de la misma capa de autoatención.

 2.2 Codificador de imágenes congeladas Aprendizaje de la representación del lenguaje visual

  • Aprendizaje contrastivo de imagen y texto (ITC): similitud de imagen y texto mediante la comparación de pares positivos y negativos

Primero se calcula la similitud por pares entre cada salida de consulta y t, y se selecciona la más alta como la similitud de imagen-texto.

Para evitar la fuga mutua de consultas e información de texto, utilizamos una máscara de autoatención unimodal

  • Generación de texto basada en imágenes (ITG): no permite la interacción directa entre el codificador de imágenes congeladas y los tokens de texto, por lo que la consulta primero debe extraer la información necesaria para generar texto y luego pasar a los tokens de texto a través de una capa de autoatención.

Uso de máscaras de autoatención causales multimodales para controlar las interacciones de texto de consulta

Reemplace los tokens [CLS] con nuevos tokens [DEC] como primeros tokens de texto para las tareas de decodificación de notificaciones

  • Coincidencia de imagen y texto (ITM): predecir si los pares de imagen y texto coinciden

Usar una máscara bidireccional de autoatención

Las incrustaciones de cada consulta de salida se introducen en un clasificador lineal de dos clases para obtener logits, y los logits de todas las consultas se promedian como la puntuación de coincidencia de salida.

2.3 Representaciones congeladas de LLM Learning Vision-to-Language

La incrustación de consulta de salida se proyecta linealmente en z en la misma dimensión que la incrustación de texto de LLM mediante una capa totalmente conectada (FC), y luego la incrustación de consulta proyectada se preprocesa en la incrustación de texto de entrada.

3. Código

Debido a que es el trabajo del equipo original de ALBEF y BLIP, también utiliza muchas habilidades de trabajos anteriores.

BLIP-2 se divide en tres etapas: ①Congelación del modelo visual: entrenamiento de la relación de mapeo entre el modelo visual y Q-former (LLM no se presenta en este momento) ②Congelación del modelo visual y entrenamiento del modelo LLM: mapeo del modelo visual a Relación de Q-former a LLM ③ Descongelación: ajuste fino

3.1 Fase 1: Blip2Qformer

La primera etapa no introduce LLM, y la estructura general se muestra en la figura a continuación

 

Inicializó el modelo BertLMHeadModel (bert + cls [en realidad ffn]) como Qformer y usó query_tokens como consultas aprendidas

 

  •  Use contraste de imagen y texto (ITC), coincidencia de imagen y texto (ITM) y subtítulos de imagen. Los dos primeros también son comunes.Tanto  ALBEF como BLIP tienen funciones de pérdida similares y utilizan técnicas similares, como la selección de muestras difíciles. La última tarea usa subtítulos de imagen (pero, de hecho, parece que la tarea de la película es la esencia).
  • El bert en Qformer se usa repetidamente para compartir los parámetros de la capa SA

3.1.1 Leyenda de imágenes

 De hecho, Qformer es un modelo bert + un ffn y finalmente usa la relación causal como salida

3.2 La segunda etapa: Blip2OPT

La segunda etapa introduce LLM, congela la visión y LLM, y la parte LLM ingresa query_output y texto al mismo tiempo.

La estructura general se muestra en la siguiente figura:

En este momento, solo queda un modelo de bert en Qformer, y la incrustación de palabras y posiciones no se realiza en BertEmbeddings, y solo LN y abandono se realizan una vez para la entrada query_embeds

Mapeo lineal al modelo LLM

3.2 La tercera etapa: puesta a punto

El modelo utilizado sigue siendo Blip2OPT, que descongela la parte visual pero sigue sin descongelar la parte LLM

Supongo que te gusta

Origin blog.csdn.net/weixin_50862344/article/details/131158407
Recomendado
Clasificación