Notas de lectura en papel de puesta a tierra visual de la serie REC con transformadores

1. Resumen
2. Introducción
3. Trabajo relacionado
- 3.1 Posicionamiento visual
- 3.2 Transformador visual
4. Método
5. Experimentar
6. Conclusión

escribir delante

Hola, ha pasado otra semana y las clases están por comenzar, me pregunto si tus amigos se han adaptado. Vamos ~
Este también es un artículo sobre REC. El artículo es anterior, pero también es un artículo de lectura obligada para principiantes.

Dirección del artículo: PUESTA A TIERRA VISUAL CON TRANSFORMADORES
Dirección del código: https://github.com/usr922/vgtr
En: ICME 2022
Ps: Notas de lectura para una publicación de blog cada semana en 2023. Más información útil en la página de inicio . Bienvenido a seguirme. Espero su participación entre los 5000 fanáticos ~

1. Resumen

Este artículo propone un método basado en Transformer para el posicionamiento visual. A diferencia de los métodos existentes que primero extraen propuestas y luego las clasifican, que dependen en gran medida de detectores de objetivos previamente entrenados o métodos marco sin propuestas, un conjunto de detectores de una sola etapa fuera de línea se actualiza fusionando incrustaciones de texto. El método propuesto en este artículo, Visual Grounding with TRansformers VGTR, se basa en el marco Transformer, es independiente de los detectores previamente entrenados y de la incrustación de palabras, y se utiliza para aprender características visuales semánticamente discriminativas. El experimento logró un rendimiento SOTA.

2. Introducción

En primer lugar, señalar la definición, aplicación y dificultades del posicionamiento visual. Los primeros enfoques veían la localización visual como un caso especial de recuperación de imágenes basada en texto y la enmarcaban como la tarea de recuperar un referente de un conjunto de regiones candidatas en una imagen determinada. Estos métodos dependen en gran medida de detectores de objetos previamente entrenados y, a menudo, ignoran el contexto visual del objeto. Además, la mayoría de los métodos requieren un costo computacional adicional para generar y procesar propuestas candidatas.
Algunos trabajos recientes eliminan el proceso de generación de Propuestas y localizan directamente el objetivo, pero las características visuales y textuales siguen siendo independientes entre sí. Para aliviar este problema, este artículo propone una red VGTR basada en Transformer de extremo a extremo, que puede capturar el contexto visual y lingüístico global sin generar propuestas de destino. En comparación con los métodos basados en detectores fuera de línea o funciones de cuadrícula, VGTR trata la localización visual como un problema de regresión de coordenadas basado en el cuadro delimitador objetivo de la oración de consulta.

Insertar descripción de la imagen aquí
Como se muestra en la figura anterior, VGTR consta de cuatro módulos: un codificador básico, utilizado para calcular tokens básicos de pares de imagen-texto; un codificador de posicionamiento de doble flujo, utilizado para realizar razonamiento conjunto e interacción multimodal del lenguaje visual; un módulo de posicionamiento decodificación El procesador trata los tokens de texto como consultas de posicionamiento y propone características relacionadas con el objetivo a partir de los tokens visuales codificados; se utiliza un cabezal de predicción para realizar la regresión de coordenadas del cuadro delimitador. Además, se diseña un nuevo mecanismo de autoatención que reemplaza al original y se aplica a tokens visuales, estableciendo la asociación entre las dos modalidades y aprendiendo características visuales guiadas por texto sin reducir la capacidad de posicionamiento.

Las contribuciones se resumen a continuación:

Se propone un marco VGTR de extremo a extremo para la localización visual sin la necesidad de detectores ni modelos de lenguaje previamente entrenados;
Se propone un módulo de atención guiada por texto para aprender características visuales guiadas por descripciones del lenguaje;
El método llega a SOTA.

3. Trabajo relacionado

3.1 Posicionamiento visual

Este artículo divide el posicionamiento visual en dos categorías: rango de propuesta y sin propuesta. El primero genera primero un conjunto de propuestas de objetivos candidatos a partir de la imagen de entrada a través de un detector fuera de línea o un generador de propuestas, luego asocia descripciones de lenguaje y califica estas propuestas candidatas, y selecciona la que tiene la puntuación más alta como objetivo de posicionamiento. Estos métodos dependen en gran medida del rendimiento de detectores o generadores de propuestas previamente entrenados.
Los métodos sin propuestas se centran en localizar directamente el objetivo de referencia y tienen un gran potencial en términos de precisión y velocidad de razonamiento.

3.2 Transformador visual

Transformer ha sido muy popular recientemente en la detección de objetivos y la segmentación de imágenes. La serie DETR transforma mapas de características visuales en un conjunto de tokens para lograr SOTA.

4. Método

4.1 Codificadores visuales y de texto básicos

Dada una imagen y un par de expresión de referencia $(yo, E)$ , la tarea de localización visual tiene como objetivo utilizar el cuadro delimitador para localizar la instancia de destino descrita por la expresión de destino.
Primero cambie el tamaño de la imagen a $hw\times h$ , y luego se envía a la red troncal de ResNet para extraer el mapa de características de la imagen $F\in \mathbb{R}^{\frac ws\times\frac hs \times d}$ , donde $s$ es el tamaño del paso de la salida de la red troncal, $d$ es el número de canales. Luego el mapa de características visuales $F$ se transforma en tokens visuales $X_v=\{ { { v }_i}\}_{i=1}^{T_v}$ ，其中 $T_v=\frac ws\times\frac hs$ es el número de tokens, $v_i$ las dimensiones son $d$ .
Utilice un analizador suave basado en RNN para extraer tokens de texto: para la expresión dada $TE=\{e_t\}^{T}_{t=1}$ , donde $T$ representa el número de palabras. Primero, use la capa de incrustación que se puede aprender, es decir, $u_t=\text{Incrustación}(e_t)$ cada palabra $e_t$ Convertir a vector $u_t$ . Luego se aplica LSTM bidireccional para codificar el contexto de cada palabra. Luego calcula el $k$ tokens de texto en $t$ 个单词上的注意力:
$\begin{aligned} h_ {t}& =\operatorname{Bi-LSTM}(u_{t},h_{t-1}) \\ a_{k,t}& =\frac{\exp(f_k^Th_t)}{\sum_{ i=1}^T\exp(f_k^Th_i)} \end{alineado}$ Después $k$ tokens de texto se definen como la suma de los pesos de la incrustación de palabras:
$\boldsymbol{l}_k=\sum_{t=1}^Ta_{k,t}\boldsymbol{u} _t$ Los tokens de texto finales se representan como $X = {yo}_{k = 1}^{t}$ , donde $T_l$ es el número de tokens, $l_k$ las dimensiones son $re$ .

4.2 Codificador de posicionamiento

El codificador de localización consta de $Compuesta por N$ capas independientes, cada capa contiene dos ramas visuales + de lenguaje independientes para procesar tokens visuales y de texto. Al igual que la capa Transformer, cada rama contiene tres subcapas: capa de norma, capa de autoatención de múltiples cabezales y capa directa FFN completamente conectada.

Rama de texto de autoatención

Consultas dadas $q_l$ , de Tokens de texto de la capa $i$ $X_l^i$ Obtener claves $k_l$ 和 valores $v_l$ , la salida de la capa de autoatención de texto es:
$\operatorname{T-Attn}(\boldsymbol{q}_l,\boldsymbol {k }_l,\boldsymbol{v}_l)=\operatorname{softmax}\left(\frac{\boldsymbol{q}_l\boldsymbol{k}_l^T}{\sqrt d}\right)\cdot\ símbolo en negrita{v}_l$ Luego aplique FFN, definido como $\text{FFN}_l$ Obtener funciones de texto $X_l^{i+1}$ ：
$X_l^{i+1}=\text{FFN}_l\text{ (T-Atención}(q_l,k_l,v_l))$

Rama visual de la autoatención guiada por texto

La estructura de la rama visual es similar a la rama de texto, pero hay un componente adicional llamado autoatención guiada por texto, cuyo objetivo es extraer características visuales destacadas bajo la guía de descripciones de texto. Específicamente, consultas dadas $q_v$ , de la sección Tokens visuales $X_v^$ $i de la capa i$ $X_{v}$ Obtener claves $k_v$ 和 valores $v_v$ . A continuación, la característica de texto $X_l^{i+1}$ Complemente las consultas visuales como información de orientación adicional. Para una implementación fluida, utilice tokens específicos para emparejar tokens de texto $X_l^{i+1}$ Sume los pesos y agregue consultas visuales $q_v$ . por donde pasan los pesos $q_v$ 和 $X_l^{i+1}$ 的点乘得到:
$\mathrm{V-Attn}(\hat{\boldsymbol{q}}_v,\boldsymbol{k}_v,\boldsymbol{v}_v)=\mathrm{softmax}\left(\frac{\hat{\ negritasymbol{q}}_vk_v^T}{\sqrt{d}}\right)\cdot\boldsymbol{v}_v \\ \\ \begin{aligned}\hat{q}_v&=\boldsymbol{q}_v+\ mathrm{softmax}\left(\frac{\boldsymbol{q}_v(X_l^{i+1})^T}{\sqrt d}\right)\cdot X_l^{i+1}\end{aligned}$ De manera similar, aplique FFN, expresado como $\text{FFN}_v$ Obtenga tokens visuales $X_v^{i+1}$ ：
$X_v^{i+1}=\mathrm{FFN}_v(\mathrm{V-Attn}(\hat{q }_v,k_v,v_v))$
La siguiente figura es un diagrama esquemático de la atención multimodal y el mecanismo de atención guiada por texto propuesto en este artículo:

Insertar descripción de la imagen aquí
Las consultas de un mecanismo de autoatención multimodal típico se originan en una modalidad, mientras que las claves y los valores se originan en otra modalidad para realizar operaciones de autoatención estándar, similares a las operaciones de autoatención en el decodificador Transformer. Sin embargo, integrar información de texto en características de imagen de esta manera puede dañar las capacidades de posicionamiento, por lo que este artículo propone guiar las características visuales a través de tokens de texto para lograr un mayor rendimiento.

4.3 Decodificador de posicionamiento

El decodificador también está compuesto por $Está compuesto por N$ capas independientes apiladas. Cada capa tiene 4 subcapas: capa de norma, capa de autoatención de consulta de posicionamiento, capa de autoatención de consulta de conexión a tierra, capa de autoatención de codificador-decodificador y capa de alimentación directa (FFN) completamente conectada.
La entrada del decodificador de posicionamiento son los tokens de texto modificados $X_l^N$ , seguido de consultas de posicionamiento $Servicios G$ , además de tokens visuales $X_v^N$ Participación. Bajo la guía de consultas de posicionamiento, autoatención de consultas de posicionamiento y mecanismos de autoatención codificador-decodificador, se decodifican características visuales guiadas por texto.

Autoatención de consultas de posicionamiento

Consultas dadas $q_g$ , de Consultas de posicionamiento para la capa $i$ $G^i$ Obtener claves $k_g$ $^{de i}$ $k$ 和 valores $v_g$ . Luego aplique el mecanismo de autoatención estándar para realizar la mejora de la consulta:
$\text{G-Attn}(q_g,k_g,v_g)=\text{ softmax }\left(\frac{q_gk_g^T}{\sqrt{d}}\right)\cdot v_g$ Las consultas de posicionamiento modificadas se obtienen luego mediante normalización de capas (LN):
$G^{i+1}=\mathrm{LN} (\mathrm{ G-Atención}(q_g,k_g,v_g))$

Autoatención codificador-decodificador

La autoatención del codificador-decodificador localizará las consultas $G^{i+1}$ se trata como consultas $f_g^q$ , de los tokens visuales codificados $X_v^N$ Obtener claves $f_v^k$ 和 valores $f^v_v$ Como entrada, genere las características extraídas relacionadas con el texto:
$\operatorname{ED-Attn}(q_g,k_v,v_v)=\operatorname{ softmax}\left(\frac{q_gk_v^T}{\sqrt d}\right)\cdot v_v$ Finalmente, se aplica FFN, denotado como $\text{FFN}_{ed}$ Obtenga las incrustaciones finales $Z$ ：
$Z=\text{FFN}_{ed}(\text{ED-Atención}(q_g,k_v,v_v))$

4.4 Cabeza de predicción y objetivo de entrenamiento

Este artículo trata la tarea de posicionamiento del objetivo referencial como un problema de regresión de coordenadas del cuadro delimitador. Obtenga la incrustación transformada del decodificador de posicionamiento $Z=\{z_{\boldsymbol{i}}\}_{i=1}^{K}\in\ mathbb{ R}^{K\veces d}$ , luego concatene todos los vectores transformados y luego use el cabezal de predicción para devolver las coordenadas del punto central y el ancho y alto del objetivo. El cabezal de predicción consta de dos capas completamente conectadas seguidas de una capa de activación ReLU.
Los objetivos del entrenamiento son la pérdida de L1 y la pérdida general de IoU (GIoU) $\mathcal{L}_{iou}(\cdot)$ $Pérdida=\lambda_{L_1}||b-\hat{b}$ ;
$pérdida_= yo_{l} ∣∣ segundo - \hat{b} ∣ ∣ + yo_{l_{yo o}} l_{yo o} (b, \hat{b})$ donde $\hat b$ representa el cuadro delimitador del objetivo previsto, $b$ es GT, $\lambda_{L_1}$ 、 $\lambda_{L_{iou}}\in \mathbb{R}$ es un hiperparámetro que equilibra las dos pérdidas.

5. Experimentar

5.1 Conjunto de datos

Entidades de Flickr30k、RefCOCO/RefCOCO+/RefCOCOg。

5.2 Detalles de implementación

Configuración de hiperparámetros

Tamaño de imagen de entrada $512\times512$ , la longitud máxima de la oración es 20 y el tamaño del paso de salida de Backbone es $s = 32$ . Para todos los conjuntos de datos, se extraen 4 tokens de texto. El número de cabezas en atención de múltiples cabezas es 8 y el tamaño de la capa oculta $d = 256$ , el número de capas de VGTR $norte = 2$ ， $\lambda_{L_1}=5$ , $\lambda_{L_{iou}}=2$ .

Detalles de formación y evaluación.

Optimizador AdamW, tasa de aprendizaje inicial $1 mi - 4$ , caída de peso $1 mi - 5.$ Columna vertebral de CNN: ResNet50/101. Los pesos de inicialización adoptan los pesos previamente entrenados con datos de MSCOCO. Se entrenan un total de 120 épocas. En las épocas 70 y 90, la tasa de aprendizaje disminuye en un $10\%$ . Utilizando [email protected] como índice de evaluación,

5.3 Comparación con el método SOTA

Insertar descripción de la imagen aquí

5.4 Experimento de ablación

Aporte de cada parte

Insertar descripción de la imagen aquí

Eficacia de la autoatención guiada por textos

Insertar descripción de la imagen aquí

número de capas

Misma tabla 3.

5.5 Análisis cualitativo

Insertar descripción de la imagen aquí

6. Conclusión

Este artículo propone un marco VGTR basado en Transformer de una sola etapa para tareas de posicionamiento visual, y los experimentos muestran que el método es efectivo.

escribe en la parte de atrás

Este artículo es relativamente breve, pero puede considerarse como una buena aplicación y mejora de Transformer en 2021. Ahora el efecto no es tan explosivo. Además, también es necesario mejorar las habilidades de redacción del autor en el artículo: simplemente se hace clic en muchos conceptos sin profundizar. Además, una parte del capítulo se desperdicia en la estructura del Transformador, lo cual no es apropiado.