VLP, tarea de texto en vídeo multimodal (1)

        El vídeo abarca inherentemente muchas formas y se ha utilizado como un microcosmos para probar cómo los sistemas de inteligencia artificial perciben el mundo. En este capítulo, llevamos a cabo una revisión sistemática de la aplicación del preentrenamiento del lenguaje visual (VLP) a tareas de texto en video.

        Comenzamos presentando la popular tarea de texto en vídeo. Revisamos la arquitectura de un modelo de texto de vídeo típico, que consta de un codificador de vídeo, un codificador de texto y un módulo de fusión multimodal. Dividimos los modelos representativos de lenguaje de vídeo en dos categorías:

(i) Codificador dual, donde el video y el texto se codifican por separado, utilizando capas u operaciones de fusión multimodal livianas (como productos punto) para fusionar características de video y texto;

(ii) Codificador Fusion, que generalmente adopta múltiples capas Transformer adicionales encima del codificador de video y el codificador de texto para capturar la interacción profunda entre las funciones de video y texto.

1. Tarea de vídeo-texto

         Presentamos tres tareas populares de conversión de video a texto: recuperación de texto a video, respuesta a preguntas en video y generación de subtítulos de video. En la Figura 1 se muestran ejemplos de estas tareas.

Figura 1: Ejemplos de tareas representativas de conversión de video a texto incluyen: (i) recuperación de texto a video, incluida la recuperación de video y la recuperación de momentos; (ii) respuesta a preguntas en video, incluidas configuraciones de opción múltiple y abiertas; (iii
) Generación de descripción de video, incluye descripciones de oraciones individuales y descripciones de párrafos.

1.1 Recuperación de texto a video

        La tarea de recuperación de texto a video consiste en recuperar videos o clips de video relevantes de corpus de video a gran escala basados ​​en consultas en lenguaje natural. La tarea se puede dividir en tres tipos según la configuración.

• Recuperación de vídeo (Recuperación de vídeo: VR)

        Recupere vídeos relevantes de corpus de vídeos a gran escala. En esta configuración, la consulta de texto debe proporcionar una descripción general del video. Tomando el ejemplo de la Figura 1, “Un hombre juega al Frisbee con un perro” resume los hechos ocurridos en el primer vídeo. Esto es similar a la recuperación de texto a imagen y la métrica de evaluación utiliza Recall@K (K=1, 5, 10, 100).

• Recuperación de momento de vídeo único (SVMR)

        Localice los videoclips en el video recuperado de un video determinado . Las consultas de texto solo son relevantes para segmentos específicos de todo el video. En la Figura 1, "un perro corre con un disco volador" solo puede asociarse con el contenido visual en t = 3, 4, 5 en el primer video. Del mismo modo, la métrica de evaluación utiliza Recall@K (K=1, 5, 10, 100) y restringe la relación de intersección temporal sobre unión (tIoU) entre propuestas reales y propuestas previstas (por ejemplo, tIoU≥0,5/0,7).

• Recuperación del momento del corpus de vídeo (VCMR)

        Escalar el conjunto de videoclips relevantes desde un solo video hasta un corpus de video a gran escala. Puede considerarse como una combinación de VR y SVMR. El modelo de IA no solo necesita recuperar videos relevantes del corpus de video, sino que también necesita ubicar el videoclip dentro del video recuperado para que una consulta de texto pueda describir el videoclip. Por ejemplo, dada la consulta "un perro corre con un disco volador", el modelo debe hacer coincidir correctamente el primer video y limitar la consulta de texto a los videoclips de t = 3 a t = 5. De manera similar, VCMR se evalúa utilizando Recall@K (K=1, 5, 10, 100) con tIoU≥0,5/0,7.

        La mayoría de los modelos VLP se evalúan en realidad virtual. Los conjuntos de datos de realidad virtual más populares incluyen (i) MSVD, MSRVTT, LSMDC, YouCook2 y VATEX para la recuperación de una sola oración en video ; (ii) DiDeMo y ActivityNet Captions para la recuperación de párrafos en video . El conjunto de datos de recuperación de párrafo a video es un conjunto de datos recopilado mediante la conversión de las tareas más desafiantes SVMR o VCMR. En DiDeMo y ActivityNet Captions, las oraciones de cada párrafo están anotadas con intervalos de tiempo asociados. Recientemente, se propuso a TVR y How2R introducir información adicional de diálogo/descripción para VCMR con entrada de vídeo multicanal.

1.2 Preguntas y respuestas en vídeo (VQA)

        Dado un par de video-pregunta, la respuesta a preguntas en video requiere un modelo de inteligencia artificial para responder la pregunta en función del contenido del video. Hay dos configuraciones, ambas evaluadas por precisión.

• Control de calidad de vídeo de opción múltiple

        El modelo necesita identificar la respuesta correcta a partir de un conjunto fijo de un pequeño número de opciones de respuesta (por ejemplo, 4 o 5 opciones de respuesta). Dado que las respuestas están restringidas a un conjunto finito, la tarea suele formularse como un problema de clasificación. En la literatura, las tareas de recuperación de video a texto con una pequeña cantidad de textos candidatos a menudo se tratan como tareas de control de calidad de opción múltiple.

• Abrir control de calidad del vídeo

        La respuesta correcta se puede formar libremente a partir de palabras de todo el vocabulario. Un enfoque común es seleccionar primero las respuestas más comunes del conjunto de entrenamiento, formar un vocabulario de respuestas limitado y formularlo como una tarea de clasificación .

1.3 Descripción del vídeo

        La tarea de descripción de video es generar una descripción en lenguaje natural para un video determinado. Esta es la única tarea de generación entre las tres tareas. Se espera que el título generado pueda describir de manera integral el contenido del video, incluido el evento u objeto de interés, el comportamiento del evento u objeto a lo largo del tiempo y la relación entre ellos. Los puntos de referencia más populares requieren generar un título de una sola frase que resuma todo el contenido del vídeo. Si bien un video corto puede requerir solo una oración para resumir lo que sucedió, para videos más largos la descripción a menudo requiere párrafos de varias oraciones , como en las líneas base de anotaciones densas. Recientemente, se han propuesto conjuntos de datos de subtítulos de vídeo multimodales, que contienen subtítulos que describen escenas visuales y diálogos/subtítulos en vídeos. El rendimiento de la generación de títulos se evaluó utilizando métricas estándar de generación de texto .

2. Marco modelo

        Descripción general: dado un par de oraciones de texto w y videos v, un modelo típico de video-texto primero extrae secuencias de características de texto y características visuales a través de un codificador de texto y un codificador de video, w = {w_1,\puntos,w_N}respectivamente v = {v_1, \puntos, v_M}. donde N es la cantidad de tokens en la oración y M es la cantidad de características visuales del video, según el codificador visual específico utilizado. El módulo de fusión multimodal proyecta estas características en un espacio de incrustación compartido para producir representaciones intermodales. En términos generales, dividimos los modelos de video-texto en dos categorías según el diseño de módulos de fusión multimodal:

Diagrama esquemático del marco general del modelo de lenguaje de video basado en Transformer

• Codificador doble

        donde el vídeo y el texto se codifican por separado y la interacción entre las características del vídeo y el texto se modela mediante operaciones ligeras como el producto escalar o la similitud del coseno. Este diseño es muy beneficioso para la búsqueda rápida en la recuperación de texto a video y también se usa ampliamente para mejorar la representación de video mediante el contraste del preentrenamiento de video y texto. Sin embargo, esta interacción intermodal superficial no es lo suficientemente eficiente para las tareas de generación de subtítulos y respuesta a preguntas en video, como se muestra en Support-Set. Por lo tanto, se requiere un decodificador de texto adicional para la generación de subtítulos.

• Codificador de fusión

        Agregue capas Transformer adicionales encima del codificador de video y el codificador de texto para capturar interacciones detalladas entre las funciones de video y texto. Los trabajos destacados con codificadores de fusión profunda incluyen VideoBERT, UniVL, ClipBERT y MERLOT, que funcionan bien en tareas de generación de explicaciones y respuesta a preguntas en vídeo. Si bien también se logra un rendimiento competitivo en la tarea de recuperación de texto a video, el codificador fusionado es computacionalmente más costoso en comparación con el codificador dual .

Los modelos VLP desarrollados para tareas de texto en vídeo están en constante evolución y sólo se muestran algunos trabajos representativos.

Tabla 1: Modelo representativo de VLP E2E para tareas de vídeo a texto
: de un extremo a otro. CNN: Red neuronal convolucional. OD: Detector de Objetos. Xformer: Transformador. Emb.: Incrustar. MLM/MFM/MVM: lenguaje enmascarado/frame/modelado de vídeo. VTM: concordancia vídeo-texto. VTC: aprendizaje contrastivo vídeo-texto. FOM: Modelado secuencial de cuadros. LM: Modelado del lenguaje.

        La salida final del modelo de video-texto puede generarse directamente mediante el módulo de fusión multimodal (para modelos solo codificadores) resultante de la representación intermodal o agregando un decodificador entre el módulo de fusión multimodal y la capa de salida. La Tabla 1 resume los modelos VLP representativos para tareas de video-texto, incluidos los modelos de codificador fusionado (cuadros superiores) y los modelos de codificador dual (cuadros inferiores). A continuación, revisamos cada componente en detalle.

2.1 Codificador de vídeo

        Codificador de vídeo A diferencia de las imágenes estáticas, los segmentos de vídeo constan de una secuencia de fotogramas/imágenes que evolucionan con el tiempo . Por lo tanto, los codificadores de video necesitan capturar no solo la información espacial de cada cuadro, sino también la dinámica temporal entre cuadros . Con el tiempo, el codificador de vídeo evoluciona desde múltiples extractores de funciones fuera de línea hasta un codificador de vídeo unificado aprendido de un extremo a otro. Los cambios en los codificadores de vídeo también reflejan la tendencia general de VLP en las tareas de texto y vídeo, es decir, desde el preentrenamiento en dos etapas hasta el preentrenamiento de un extremo a otro.

• Múltiples extractores de funciones sin conexión

        Los primeros enfoques consistían en utilizar una combinación de extractores de funciones de vídeo fijas, como CNN 2D previamente entrenadas para la clasificación de imágenes (por ejemplo, ResNet), CNN 3D previamente entrenadas para el reconocimiento de acciones (por ejemplo, I3D) y modelos de detección de objetos (por ejemplo, Faster RCNN). . ). Estas características de video se procesan aún más en un formato similar al ingreso de texto o se proyectan en el mismo espacio de alta dimensión que la representación del texto.

        Por ejemplo, VideoBERT genera una serie de "tokens visuales" (similares a tokens de texto) sometiendo características de vídeo previamente extraídas a una cuantificación vectorial jerárquica. Estos marcadores visuales provienen de la cuantificación de vectores jerárquicos que S3D preentrenó en Kinetics. ActBERT representa videos combinando secuencias de características de acción de 3D CNN y secuencias de características de objetos de región de Faster R-CNN. Luego, se agregan incrustaciones aprendibles de tokens específicos ([ACT] para acciones, [REGION] para objetos) a las funciones antes de introducirlas en el módulo de fusión multimodal. HERO concatena funciones 3D Slowfast con funciones 2D ResNet-101 extraídas a la misma velocidad de cuadros que la representación del video. Proyecte las características de video concatenadas en un espacio latente a través de una capa completamente conectada y luego agregue una incrustación posicional que codifique el orden temporal de las características del cuadro de entrada.

• Codificador de vídeo aprendido de un extremo a otro

        Aunque los modelos basados ​​en funciones de vídeo preextraídas logran un rendimiento sólido, existe un cierto grado de discrepancia entre estas funciones fijas y la tarea/dominio de texto de vídeo de destino. Los extractores de funciones sin conexión suelen estar entrenados en tareas puramente visuales en diferentes dominios. Para abordar este problema, los investigadores intentaron optimizar los codificadores de vídeo durante el entrenamiento previo de texto de vídeo de un extremo a otro (E2E). Esto requiere más recursos informáticos que el uso de varios codificadores de vídeo, por lo que se utiliza un único codificador de vídeo.

        Por ejemplo, HTM aprende representaciones de vídeo desde cero utilizando I3D inicializado aleatoriamente. En ClipBERT, las representaciones de video se generan utilizando ResNet-50 previamente entrenado para la detección de objetos junto con la agrupación promedio temporal. Con el desarrollo de ViT, los modelos recientes de extremo a extremo adoptan una arquitectura completamente basada en Transformer. Frozen inserta varios bloques de autoatención espacio-temporal en ViT previamente entrenado y aprende la representación global de video comparando el texto del video previamente entrenado. MV-GPT y LAVENDER directamente a través de transformadores de video visión (como ViViT) y video Swin Transformer.

2.2 Codificación de texto

        Primero, la entrada de texto se tokeniza en una serie de tokens para obtener incrustaciones de tokens. Antes de que los modelos tipo BERT adoptaran ampliamente el preentrenamiento de video-texto, los primeros modelos de codificador dual (Miech et al., 2019, 2020) utilizaban incrustaciones de word2vec previamente entrenadas (Mikolov et al., 2013a), seguidas de operaciones de agrupación máxima. .para obtener la representación general de la oración. Muchos trabajos recientes siguen los pasos de preprocesamiento de texto estándar de BERT, segmentando el texto en secuencias de WordPieza (Wu et al., 2016) e insertando dos tokens especiales ([CLS] y [SEP]) al principio y al final de la secuencia. Se utiliza una capa de incrustación de palabras que consta de capas de incrustación de palabras, incrustación de posición y normalización de capas para incrustar estos tokens en vectores en un espacio continuo de alta dimensión. Para los modelos de codificador dual, las incorporaciones aprendidas son vectores de características producidos por una red Transformer profunda (Patrick et al., 2020; Bain et al., 2021; Xu et al., 2021b). Para los modelos de codificador fusionado, se pueden introducir directamente en el módulo de fusión multimodal (Tang et al., 2021c; Xu et al., 2021a), donde la capa de incrustación de palabras es el único componente del modelo específico de texto, o en la fusión multimodal. Módulo Procesado previamente a través de varias capas de Transformer (Yang et al., 2021a, b; Seo et al., 2022).

2.3 Fusión multimodal

        Para modelos de codificador dual como HTM y MNCE, las representaciones globales de video/texto extraídas de los codificadores de video/texto se alinean en un espacio semántico común a través de productos internos livianos. Para los modelos de codificadores fusionados, el diseño más popular es la atención fusionada, donde las funciones de texto y vídeo simplemente se concatenan y luego se introducen en un único bloque Transformer. En un estudio reciente, los autores insertaron módulos de atención cruzada en las capas superiores de Transformer, entre las capas de autoatención y de retroalimentación para permitir que las características textuales se centren en secuencias de características visuales de longitud variable. Esto es similar a la coatención. Pero la diferencia es que sólo se utiliza el módulo de atención cruzada de vídeo a texto.

2.4 Solo codificador frente a codificador-decodificador

        De manera similar a los modelos de texto de imagen, la mayoría de los modelos de texto de video existentes adoptan una arquitectura de solo codificador para generar el resultado final a partir de la representación intermodal directamente a través de la capa de salida. UniVL, MV-GPT y Support Set son trabajos típicos con arquitectura codificador-decodificador, en los que se agrega un decodificador entre el codificador y la capa de salida. En estos trabajos, el decodificador se entrena previamente y se utiliza en tareas posteriores para generar explicaciones en video de forma autorregresiva. Esta comparación ilustrativa se puede aplicar directamente a la entrada de vídeo-texto simplemente reemplazando la imagen de entrada con una secuencia de fotogramas de vídeo de entrada.

 Título: Preformación visión-lenguaje: conceptos básicos, avances recientes y tendencias futuras

Supongo que te gusta

Origin blog.csdn.net/qq_41458274/article/details/133313235
Recomendado
Clasificación