Primeras tecnologías de VLP y multimodalidad (2)

La etapa inicial es visión-lenguaje (VL) y no implica ningún entrenamiento previo.

1. Tareas visual-lingüísticas y puntos de referencia de evaluación

Pensando en la tarea VL como una tarea de aprendizaje automático, se puede formular como y = f(x; θ), donde nuestro objetivo es aprender un modelo VL parametrizado f que genere la salida y a partir de la entrada x. Las tareas de VL se pueden clasificar según dos dimensiones:

1) Según las propiedades modales de xey, las tareas de VL se pueden dividir en tareas de imagen-texto o video-texto.

2) Dependiendo de cómo f genera y, las tareas de VL se pueden dividir en las dos categorías siguientes:

Las tareas de comprensión de VL, como la recuperación de imágenes y texto y la respuesta visual a preguntas (y su variante, el razonamiento visual), requieren un modelo de VL para seleccionar la salida de una lista de candidatos dada, es decir, y es seleccionado por f de la lista de candidatos dada;
Las tareas de generación de VL, como la descripción de imágenes, requieren que los modelos VL generen resultados, es decir, y debe generarse a partir de f.

1.1 Recuperación de texto de imagen

La recuperación de imágenes y texto se puede dividir en dos subtareas, de la siguiente manera:

Recuperación de texto a imagen, es decir, recuperación de imágenes relacionadas en función de consultas de texto ingresadas (como se muestra en la Figura 1.1)
Recuperación de imagen a texto, que recupera descripciones textuales que pueden asociarse con consultas de imágenes.

En ambos casos, el modelo necesita hacer coincidir la consulta con las instancias correspondientes, que provienen de una base de datos relativamente grande (por ejemplo, una base de datos para una tarea típica de recuperación de texto a imagen contiene entre 1000 y 5000 imágenes). El índice de medición es Recall@K (K=1, 5, 10). Los conjuntos de datos de uso común incluyen COCO (Chen et al., 2015) y Flickr30K (Plummer et al., 2015). Sun y otros (2021) propusieron fusionar los conjuntos de entrenamiento, validación y prueba de cada conjunto de datos para formar un grupo de candidatos más grande, simulando escenarios de recuperación de texto a imagen del mundo real que a menudo involucran cientos de miles de imágenes y basándose en tasa de precisión de recuperación y velocidad de inferencia para evaluar el modelo.

1.2 Respuesta visual a preguntas y razonamiento visual

Preguntas y respuestas visuales:

La respuesta visual a preguntas (VQA) es una de las tareas de lenguaje visual más importantes en la comunidad de investigación. Dado un par de imágenes y preguntas, VQA requiere que el modelo proporcione la respuesta correcta según la imagen. Generalmente hay dos configuraciones: (i) opción múltiple, donde se proporciona un pequeño conjunto de opciones de respuesta (por ejemplo, 4/5 opciones de respuesta) junto con la imagen y la pregunta; (ii) preguntas abiertas, donde las respuestas pueden ser libres formal, no limitado a respuestas candidatas predefinidas. Sin embargo, para simplificar la tarea del VQA, la mayoría de los estudios tratan tanto el VQA de opción múltiple como el abierto como problemas de clasificación. Específicamente, en un entorno abierto, las respuestas más comunes se seleccionan del conjunto de entrenamiento para construir un conjunto de respuestas candidatas. Por ejemplo, la segunda versión del conjunto de datos VQA, denominada VQAv2 (Goyal et al., 2017), contiene aproximadamente 3000 respuestas y se puede utilizar para formar listas de respuestas candidatas para todas las preguntas. Dado que el conjunto de datos VQA contiene 10 respuestas reales por par de imagen-pregunta, la puntuación VQA (Antol et al., 2015) se utiliza para evaluar el rendimiento del modelo. La puntuación VQA se define de la siguiente manera, teniendo en cuenta el consenso entre los anotadores humanos:

$Puntuación VQA = min(\frac{ humanos que proporcionaron esa respuesta}{3}, 1)$

Investigaciones recientes también han desarrollado varios puntos de referencia VQA. Por ejemplo, Visual Dialog (Das et al., 2017) extiende el VQA de una sola ronda a escenarios de diálogo de múltiples rondas. TextVQA (Singh et al., 2019), ST-VQA (Biten et al., 2019) y OCR-VQA (Mishra et al., 2019) recopilan preguntas relacionadas con el texto de la escena en imágenes. VizWiz-QA (Gurari et al., 2018) recopila ejemplos de VQA del mundo real de personas con discapacidad visual. OK-VQA (Marino et al., 2019) diseña preguntas basadas en el contenido de la imagen y el conocimiento externo. Por otro lado, los estudios diseñaron diferentes conjuntos de datos de diagnóstico basados en el conjunto de datos VQA original (Antol et al., 2015; Goyal et al., 2017) para realizar pruebas de estrés del modelo VQA. Por ejemplo, VQA-Rephrasing (Shah et al., 2019) reveló la vulnerabilidad de los modelos VQA a las variaciones del lenguaje en las preguntas. VQA-CP (Agrawal et al., 2018) tiene como objetivo evaluar el sesgo del lenguaje orientado a preguntas en modelos VQA. Agarwal y otros (2020) propusieron estudiar la solidez de los modelos VQA para el procesamiento automático de imágenes semánticas y probar la coherencia de la predicción para preguntas sobre imágenes limpias y sus correspondientes imágenes procesadas.

Razonamiento visual:

El razonamiento visual es una tarea de VL diseñada para evaluar las capacidades de razonamiento específicas de los modelos de VL. La mayoría de las tareas de razonamiento visual se enmarcan como respuesta visual a preguntas (VQA). Por ejemplo, GQA (Hudson y Manning, 2019b) construye preguntas a gran escala basadas en reglas que requieren múltiples habilidades de razonamiento, comprensión espacial e inferencia de varios pasos para producir respuestas. VQA-LOL (Gokhale et al., 2020) genera preguntas mediante combinación lógica y transformación del lenguaje para probar la capacidad de razonamiento lógico del modelo. Selvaraju et al. (2020) desarrollaron un conjunto de datos que contiene subpreguntas de percepción asociadas con cada pregunta para una nueva partición de inferencia del conjunto de datos VQA original (Antol et al., 2015; Goyal et al., 2017b). Visual Commonsense Reasoning (VCR) (Zellers et al., 2019) desarrolló un conjunto de datos de respuesta a preguntas de opción múltiple que requiere un razonamiento cognitivo y de sentido común de alto orden sobre el contenido de la imagen. Otros conjuntos de datos de razonamiento visual prueban la capacidad de los modelos VL para hacer coincidir el contenido de texto e imagen. Por ejemplo, NLVR2 (Suhr et al., 2019) requiere que el modelo determine si una declaración en lenguaje natural es verdadera en un par de imágenes de entrada. Visual Entailment (Xie et al., 2019) requiere que el modelo prediga si una imagen implica semánticamente su texto emparejado. Los modelos se evaluaron utilizando puntuaciones VQA en todos los conjuntos de datos derivados del conjunto de datos VQA (Antol et al., 2015; Goyal et al., 2017b). La precisión es la opción predeterminada para todas las demás métricas de evaluación de referencia.

1.3 Descripción de la imagen

La generación de descripción de imágenes es la generación de descripciones textuales de forma libre para una imagen determinada. Por lo general, se evalúa utilizando métricas de generación de texto estándar basadas en la superposición de n-gramas, como BLEU (Papineni et al., 2002), METEOR (Banerjee y Lavie, 2005), ROUGE-L (Lin, 2004) y CIDEr (Vedantam et al. ., 2015) Describir el desempeño. Además, se utilizan métricas de coincidencia de contenido semántico como SPICE (Anderson et al., 2016) para medir la similitud entre el texto generado por modelos y el texto de referencia que extrae unidades de información semántica explícita de texto distintos de n-gramas.

Como se muestra en la Figura 1.1, se proponen dos tipos de subtítulos para la tarea de generación de descripción de imágenes. Los conjuntos de datos populares están diseñados principalmente con descripciones de una sola oración, incluidos COCO, TextCaps, NoCaps y VizWiz-Captions. Se ha puesto menos esfuerzo en crear conjuntos de datos con descripciones más detalladas de varias oraciones. En términos de modelado, la mayoría de los trabajos se centran en tareas de descripción de una sola frase.

2. Modelo de lenguaje visual específico para tareas

Los primeros modelos de VL desarrollados antes de la era de VLP a gran escala generalmente resolvían una tarea de VL específica. Aquí revisamos la arquitectura de estos modelos VL de tareas específicas utilizando VQA como tarea pivote. La siguiente imagen muestra el tiempo de desarrollo de VQA.

Arquitectura del modelo 2.0

Los primeros modelos de VL generalmente adoptaban un enfoque de canalización. Dado un par de imagen-pregunta, VQA primero extrae características visuales a través de un codificador visual previamente entrenado $v = {v_1,...,v_M}$ . Utilice un codificador de texto para codificar las preguntas de entrada en características de texto $w = {w_1,...,w_N}$ . N puede ser el número de palabras de la pregunta, o N=1, que es una representación textual de toda la pregunta. M es el número de características visuales de la imagen, que puede ser el número de regiones de la imagen (p. ej., M ∈ [10, 100]) o el número de cuadrículas (p. ej., M = 14×14), dependiendo de la situación específica. dispositivo utilizado de codificación visual. Asimismo, M = 1 al extraer la representación global de la imagen. Luego, las características visuales y de texto se introducen en un módulo de fusión multimodal para generar representaciones intermodales, que luego se introducen en capas de salida específicas de la tarea (por ejemplo, clasificadores para tareas VQA) para predecir respuestas . Como se muestra abajo.

Uno de los principales focos de investigación es el diseño de atención para la fusión multimodal, que utilizamos para clasificar estos modelos y reflejar la forma en que los modelos de tareas específicas evolucionan con el tiempo. Mostramos que los primeros modelos VL eventualmente evolucionaron hacia arquitecturas basadas en Transformer, que son similares a algunos de los primeros modelos VLP como LXMERT (Tan y Bansal, 2019) y ViLBERT (Lu et al., 2019).

2.1 Codificador visual

2.1.1 La evolución de las características visuales se divide en 4 etapas:

(i) Características visuales globales con una visión holística de toda la imagen ;
(ii) Funciones de cuadrícula , que utilizan una cuadrícula uniforme para preservar la información local y espacial; Las características de cuadrícula representan la imagen de entrada a través de una cuadrícula uniforme de campos neuronales receptivos del mismo tamaño y forma , por lo que contienen más que la imagen completa capturada por el Características visuales globales. Las imágenes representan más información local .
(iii) Características regionales extraídas de regiones de imagen centradas en objetos más destacadas ; el detector de objetos produce un conjunto de regiones de imagen destacadas de diferentes tamaños y relaciones de aspecto. Las características de la región son características convolucionales agrupadas extraídas de cada propuesta de región.
(iv) Volver a las características de la cuadrícula que pueden capturar una semántica similar cuando se entrenan con objetivos de detección de objetos .

2.1.2 Método

La mayoría de los primeros métodos de lenguaje visual adoptaron un proceso de entrenamiento de dos etapas, donde las características visuales se extraen primero de un codificador visual previamente entrenado. Hay dos tipos de codificadores visuales: (i) una red neuronal convolucional simple (CNN) y (ii) un detector de objetos (OD)

cnn

Tales como: VGGNet. AlexNet, GoogLeNet y ResNet están previamente capacitados en ImageNet para extraer características visuales. El primer modelo VQA experimenta con características visuales globales de la última capa completamente conectada de VGGNet , que ha sido heredada por trabajos de seguimiento inmediatos. Para preservar la información espacial en la imagen original, los investigadores utilizaron características de cuadrícula de las primeras capas de un modelo CNN previamente entrenado . Las características de la cuadrícula representan la imagen de entrada a través de una cuadrícula uniforme de campos neuronales receptivos del mismo tamaño y forma y, por lo tanto, contienen más información local que la representación general de la imagen capturada por las características visuales globales .

En correspondencia con la cuadrícula uniforme, el detector de objetos produce un conjunto de regiones de imagen destacadas de diferentes tamaños y relaciones de aspecto. Las características de la región son características convolucionales agrupadas extraídas de cada propuesta de región . Shih et al. (2016) fue el primer trabajo que explotó características regionales para la respuesta visual a preguntas (VQA), donde se utilizaron bordes (Zitnick y Dollár, 2014) para ubicar estas regiones. En la investigación del lenguaje visual, el modelo de detección de objetos más utilizado es el modelo Faster R-CNN pre-entrenado en el conjunto de datos Visual Genome (VG) , que proviene de BUTD.

Discusión: De la grilla a la zona y de regreso a la grilla. Como se mencionó anteriormente, la exploración inicial del modelo VQA ha sido testigo de la transición de características visuales globales holísticas a características de cuadrícula con codificadores visuales CNN. Promovidos por características regionales ascendentes, los modelos de detección de objetos pronto dominaron el diseño de codificadores visuales. Las características regionales se han convertido en el estándar de facto en muchos estudios posteriores en tareas de VL como VQA e interpretación de imágenes. Sin embargo, Jiang y otros (2020) creen que, en comparación con el “formato” de la característica (es decir, área versus cuadrícula), el contenido semántico representado por la característica visual es más crítico para su efectividad. Las características de malla extraídas de la columna vertebral de CNN de un modelo de detección de objetos entrenado con los mismos datos que las características ascendentes pueden ser igualmente efectivas, pero más eficientes y pueden ajustarse más fácilmente de un extremo a otro, mientras que las características regionales son relativamente más complejo.

2.2 Codificador de texto

2.2.1 Las características del texto se dividen en tres etapas:

(i) Codificar el conjunto de palabras de cada palabra de forma independiente;
(ii) RNN que captura las dependencias de palabras y la estructura del texto;
(iii) Representación de texto más potente utilizando Transformers previamente entrenados.

2.2.2 Método:

Bolsa de palabras: codifica cada palabra de la pregunta de entrada de forma independiente, sin considerar dependencias entre palabras adyacentes. La suma o promedio de las incrustaciones de palabras (aprendidas desde cero o extraídas de word2vec previamente entrenado) sirve como representación del problema de entrada.

RNN: captura dependencias de palabras y estructura de texto. Las palabras de entrada se codifican en caliente y se pasan a través de una capa de incrustación de palabras (por ejemplo, aprendidas desde cero o extraídas de la palabra 2 vec o inicializadas/concatenadas con GLoVe). Estas incrustaciones de palabras se generan mediante un codificador de texto basado en RNN o GRU para obtener una representación del problema.

Transformer: inspirado por el éxito de Transformer, comenzó la capacitación previa a gran escala en PNL, como BERT, y los investigadores utilizaron BERT previamente capacitado para extraer representaciones de problemas.

Otros : codificador de texto basado en CNN.

2.3 Módulo de fusión multimodal

2.3.1 El método de fusión multimodal se divide en 4 etapas:

(i) Fusión simple sin atención;
(ii) atención intermodal para la alineación multimodal entre entradas de imágenes y texto;
(iii) atención intramodal que capte las relaciones unimodales;
(iv) El modelo basado en transformadores combina atención intermodal e intramodal.

El propósito de la fusión multimodal es establecer un modelo de interacción entre características visuales y características de texto. El diseño de módulos de fusión multimodal siempre ha sido un tema importante en la investigación de VL, especialmente modelos de VL para tareas específicas.

Fusión simple y sin atención: las características de imagen y texto se fusionan mediante producto por elementos , suma o concatenación. Los diseños más complejos refinan las características de imagen-texto fusionadas a través de LSTM o redes residuales multimodales .

2.3.2 Método

Atención intermodal:

Los métodos de atención intermodal tienen como objetivo capturar relaciones de alineación multimodal entre imágenes y entradas de texto. En comparación con la fusión simple, el modelo de atención crea una representación de la articulación VL más informativa porque se asignan mayores pesos a las regiones de la imagen que son más útiles para resolver la tarea. Como atención apilada, atención colaborativa y atención bilineal. Stacked Attention Network (SAN 2016) es el primer trabajo que verifica la efectividad de la atención multimodal en VQA, que utiliza preguntas como consultas para centrarse en las características de la imagen. Lu et al. (2016) creían que la atención al texto es tan importante como la atención a las imágenes, y desarrollaron un método de coatención para realizar conjuntamente la atención a la imagen basada en preguntas y la atención al texto basada en imágenes. BAN (Kim et al., 2018) extiende la idea de atención conjunta a la atención bilineal, considerando el emparejamiento entre cada palabra interrogativa y región de la imagen. Apilar múltiples capas de atención intermodal también puede verse como una forma de realizar inferencias de varios pasos, donde la distribución de la atención se optimiza capa por capa para centrarse en las regiones más relevantes para el problema.

Atención intramodal:

La atención intramodal tiene como objetivo el razonamiento relacional sobre regiones de imágenes o palabras interrogativas. Al considerar la relación entre las regiones de los objetos en las imágenes y las dependencias entre las palabras en las preguntas, el rendimiento de la respuesta visual a preguntas (VQA) se puede mejorar mediante la creación de representaciones estructuradas en gráficos. Para los problemas, se puede obtener un gráfico con palabras como nodos mediante el análisis de dependencias. Para imágenes, se puede construir un gráfico con regiones de objetos como nodos aprovechando el conocimiento externo (como un gráfico de escena) y el conocimiento previo basado en reglas (como el uso de coordenadas del cuadro delimitador para estimar las posiciones relativas de dos objetos). Alternativamente, puede comenzar desde un gráfico completamente conectado y podar y optimizar dinámicamente las conexiones entre nodos durante el entrenamiento del modelo.

Transformador:

La comprensión de la imagen (del problema) se puede lograr no sólo prestando atención a otras modalidades (a través de la atención intermodal), sino también prestando atención a las regiones relevantes de la modalidad actual (en otras palabras) (a través de la atención intramodal). Basado en la atención del producto punto escalado en Transformer, MCAN utiliza unidades de autoatención para interacciones intramodales (es decir, de región a región o palabra a palabra) y unidades de atención guiada para interacciones intermodales densas (por ejemplo, palabra a palabra). a región). MCAN también adopta una arquitectura Transformer codificador-decodificador, donde el codificador con autoatención multicapa aprende características de problemas de autoatención, y el decodificador usa las características de problemas resultantes para aprender capas apiladas con autoatención (solo en características de imagen) Auto -atención (solo en las características de la imagen), seguida de atención guiada (centrándose en las características de la imagen utilizando características problemáticas como consultas).

2.4 Capa de salida específica de la tarea

Las representaciones intermodales calculadas por el módulo de fusión multimodal se envían a capas de salida específicas de la tarea para generar predicciones del modelo. Dado que VQA generalmente se modela como un problema de clasificación, la capa de salida es un clasificador que consta de una capa completamente conectada o un perceptrón multicapa, seguido de una capa softmax para predecir la respuesta.

Título: Preformación visión-lenguaje: conceptos básicos, avances recientes y tendencias futuras