论文 Transformador espacial-temporal para generación dinámica de gráficos de escenas

Recientemente, guardé este documento porque estaba trabajando en la dirección de SGG.

2107.12309.pdf (arxiv.org) https://arxiv.org/pdf/2107.12309.pdf

Dirección de código:  GitHub - yrcong/STTran: Transformador espacial-temporal para generación de gráficos de escenas dinámicas, ICCV2021 https://github.com/yrcong/sttran

lo dijo de frente

Si desea obtener más información sobre las tareas de SGG, puede leer esta revisión. Investigaré más en el futuro.

2104.01111.pdf (arxiv.org) https://arxiv.org/pdf/2104.01111.pdf

La siguiente imagen muestra un ejemplo de un gráfico de escena:

Los métodos de generación de gráficos de escenas se dividen básicamente en cinco categorías:

  1. Basado en CRF
  2. Basado en TransE
  3. Basado en CNN
  4. Basado en RNN/LSTM
  5. Basado en gráficos . (Enfoque futuro)

Las aplicaciones de los gráficos de escena incluyen:

  • Transformador visual-textual
  • Recuperación de imagen y texto
  • Respuesta visual a preguntas
  • Comprensión y razonamiento de imágenes
  • Comprensión de la escena 3D
  • Interacción humano-objeto / humano-humano

Los desafíos de la generación de escenas radican en los siguientes aspectos:

  • Distribución de cola larga de gráficos de escena.
  • Detección de Relaciones entre objetivos distantes
  • Generación de gráficos de escenas dinámicas.
  • Detección de relaciones sociales basada en gráficos de escenas.
  • Sobre modelos y métodos de razonamiento visual.

Principales contribuciones 

  • Se propone un transformador espaciotemporal STTran para la generación dinámica de gráficos de escenas, cuyo codificador extrae el contexto espacial dentro de los fotogramas y el decodificador captura las dependencias temporales entre fotogramas.
  • Se introduce una nueva estrategia para generar gráficos de escenas utilizando pérdida de etiquetas múltiples: semi-restricción.
  • Los experimentos han demostrado que STTran puede hacer un buen uso del contexto temporal para mejorar la detección de relaciones.

Antecedentes de la investigación

La investigación actual sobre la comprensión de la escena está pasando de las imágenes a vídeos más desafiantes. Aunque se ha trabajado mucho en el reconocimiento y localización de acciones, la detección de relaciones cuadro por cuadro/generación de gráficos de escena todavía está en blanco. Generar gráficos de escena dinámicos a partir de videos es más desafiante que generar gráficos de escena a partir de imágenes porque las relaciones dinámicas entre objetos y las dependencias temporales entre fotogramas requieren una interpretación semántica más rica. La figura muestra la diferencia entre el gráfico de escena de generación de imagen y video:

En comparación con la generación de gráficos de escena basada en imágenes, al generar un gráfico de escena dinámico para un video determinado, no solo se puede utilizar la información visual, espacial y semántica de un solo cuadro, sino que también se puede usar el contexto temporal para inferir con precisión las relaciones. que aparecen en el marco. Por ejemplo, en la figura siguiente, aunque persona-tocando-comida no se puede calcular semánticamente mal, persona-comiendo-comida es una relación de acción más precisa basada en la información del cuadro anterior.

Método

La imagen muestra el diagrama de arquitectura de STTran: 

La columna vertebral de detección de objetivos propone regiones objetivo en fotogramas de vídeo RGB y preprocesa vectores de características de relación. El codificador del transformador espacio-temporal STTran primero extrae el contexto espacial de un solo cuadro. Las representaciones de relaciones modificadas por grupos de codificadores de diferentes fotogramas se combinan y se añaden a las codificaciones de fotogramas aprendidas. La capa Decodificador captura dependencias temporales y utiliza clasificadores lineales para predecir relaciones para diferentes clases de relaciones (como atención, espacio, contexto). FFN en la figura representa la red de retroalimentación.

Red de detección de objetivos, el autor usa FasterRCNN y la columna vertebral usa ResNet101

Generar representación de predicado:

t: t-ésimo cuadro, k: k-ésimo predicado
i, j: dos objetos asociados con el predicado, i-ésimo y j-ésimo
v: características visuales extraídas por la red de detección de objetivos
uij: unión de los dos objetos i, j El cuadro pasa a través de la función ROIAlign
fbox: convierte el bbox del objeto i y el bbox del objeto j en características y tiene la misma dimensión que uij
φ: Aplanar
s: información de incrustación semántica de la categoría del objeto

Codificador espacial

  • Se centra en transformar el contexto espacial en un marco, su entrada es: X_t =\izquierda \{ x^1_t,x^2_t, ...,{x_t}^{K(t)} \right \};
  • La salida de su enésima capa es: \boldsymbol{X}_t^{(n)}=Att_{enc.}(\boldsymbol{Q}=\boldsymbol{K}=\boldsymbol{V}=\boldsymbol{X}^{(n-1)} );
  • El codificador espacial está compuesto por N idénticos En_{enc.}{\color{Dorado} }y apilados en orden.La entrada de la enésima capa es la salida de la n-1ª capa;
  • A diferencia de algunos métodos de transformadores líderes, los codificadores espaciales no integran la codificación posicional en la entrada porque las relaciones dentro del cuadro son intuitivamente paralelas;
  • La información espacial oculta en la representación relacional juega un papel crucial en el mecanismo de autoatención;
  • La salida final de la pila del codificador espacial se envía al decodificador temporal.

Decodificador temporal

A diferencia de las posiciones de palabras y píxeles anteriores, personalizaremos la codificación de cuadros para inyectar incógnitas temporales en la tabla relacional. Dado que el número de vectores de incrustación determinados por la ventana eta en el decodificador temporal es fijo y relativamente corto, la codificación de trama se construye E_futilizando parámetros de incrustación que se pueden aprender. \mathrm{E}_\mathrm{f}=[\mathrm{e}_1,...\mathrm{e}_\eta], donde \mathrm{e}_{1},...\mathrm{e}_{\eta}\in\mathrm{R}^{1936}es x_t^{^{k}}un vector absoluto con la misma longitud que y . En el experimento también se utilizó como comparación el método de codificación sinusoidal.

  • El decodificador temporal se utiliza principalmente para capturar la dependencia temporal entre fotogramas;
  • Utiliza ventanas deslizantes para procesar fotogramas por lotes, lo que permite pasar mensajes entre fotogramas adyacentes para evitar interferencias con fotogramas distantes;
  • En_ {dnc.}Se elimina la capa enmascarada de autoatención de múltiples cabezales;
  • Se ejecuta una ventana deslizante de longitud η [x_1,...,x_T]donde la i-ésima entrada generada es Z_i = [x_i,...,x_{\eta +i-1}],i\in \left \{ 1,...,T+\eta -1 \right \},\eta \leq Tdonde T es la duración de todo el vídeo;
  • El decodificador y el codificador son iguales, apilados por N capas de autoatención idénticas;
  • La primera capa es: \mathrm Q=\mathrm K=\mathrm Z_\mathrm i+\mathrm E_\mathrm f(codificación de cuadro agregada) \mathrm{V}=\mathrm{Z}_{\mathrm{i}},\hat{\mathrm{Z}}_{\mathrm{i}}=\mathrm{Aut}+\mathrm{dec.} \izquierda(\mathrm{Q,K,V}\derecha),;
  • La salida del último decodificador se utiliza como predicción final;
  • Debido al uso de ventanas deslizantes, las relaciones en un marco se representan de manera diferente en diferentes lotes de entradas y se selecciona la representación que aparece primero en la ventana.

experimento

Con respecto a la función de pérdida para el entrenamiento STTran del transformador espaciotemporal, incluye dos: pérdida de margen de etiquetas múltiples basada en credibilidad y pérdida de entropía cruzada estándar

Generalmente existen dos estrategias típicas para generar gráficos de escenas con distribuciones de relaciones inferenciales:

Aquí se propone una estrategia de semi-restricción . La semirestricción  permite múltiples predicados para un par sujeto-objeto. Aquí el predicado es positivo sólo cuando la credibilidad de la correspondencia es mayor que un umbral dado.

La puntuación de la relación sujeto-predicado-objeto <sujeto-predicado-objeto> durante la prueba es

 La siguiente figura muestra ejemplos de varias estrategias:

El conjunto de datos experimental Action Genome (AG) lo proporciona la Universidad de Stanford además del conjunto de datos Charades (consulte el artículo de ECCV'16 " Hollywood in Homes: Crowdsourcing data collection for Activity listening ") (consulte el artículo de CVPR'20 para más información) . Detalles “ Genoma de acción: acciones como composiciones de gráficos de escenas espacio-temporales ”). Incluye 476229 cuadros delimitadores de 35 clases de objetos (sin personas) y 1715568 instancias de 25 clases de relaciones, con un total de 234253 cuadros etiquetados.

Estas 25 relaciones se subdividen en tres tipos diferentes: (1) relaciones de atención, que indican si una persona está mirando a un objetivo, (2) relaciones espaciales y (3) relaciones de contacto, que indican diferentes formas de contactar al objetivo. En los datos AG, hay 135484 pares sujeto-invitado, etiquetados como varias relaciones espaciales (como <persona-puerta-de entrada> y <persona-puerta-lateral>) o relaciones de contacto (como <persona-come-comida> y <persona-tomar-comida>).

Las tres medidas evaluadas provienen de la generación de gráficos de escenas en el dominio de la imagen y se utilizan para probar el método de generación dinámica de escenas en el dominio del vídeo:

  • (1) clasificación de predicados (PREDCLS)
  • (2) clasificación de gráficos de escenas (SGCLS)
  • (3) Detección de gráfico de escena (SGDET)

Los resultados experimentales son los siguientes. Varios métodos SOTA comparados incluyen:

  • VRD : “ Detección de relaciones visuales con antecedentes del lenguaje ”. ECCV2016
  • MSDN : “ Generación de gráficos de escena a partir de objetos, frases y títulos de región ”, ICCV2017
  • Motif Freq : “ Motivos neuronales: análisis de gráficos de escenas con contexto global ”, CVPR2018.
  • VCTREE:“ Aprender a componer estructuras de árbol dinámicas para contextos visuales “,CVPR2019
  • RelDN : “ Pérdidas de contraste gráfico para el análisis de gráficos de escenas ”, CVPR2019
  • Gps-netred de detección de propiedades gráficas para la generación de gráficos de escenas , CVPR2020

en conclusión

  • Este artículo propone un transformador espacio-temporal (STTran) para la generación dinámica de gráficos de escenas. Su codificador extrae el contexto espacial dentro de un cuadro y el decodificador captura la dependencia temporal entre cuadros.
  • A diferencia de las pérdidas de etiqueta única anteriores, este artículo utiliza pérdidas de etiquetas múltiples e introduce una nueva estrategia para generar gráficos de escenas.
  • Múltiples experimentos muestran que el contexto temporal tiene un impacto positivo en la predicción de relaciones.
  • En el conjunto de datos de Action Genome, la tarea de generación de gráficos de escenas dinámicas logró resultados SOTA.
     

Supongo que te gusta

Origin blog.csdn.net/Mr___WQ/article/details/129692648
Recomendado
Clasificación