Notas de lectura en papel de puesta a tierra visual de la serie REC con transformadores


escribir delante

  Hola, ha pasado otra semana y las clases están por comenzar, me pregunto si tus amigos se han adaptado. Vamos ~
  Este también es un artículo sobre REC. El artículo es anterior, pero también es un artículo de lectura obligada para principiantes.

1. Resumen

  Este artículo propone un método basado en Transformer para el posicionamiento visual. A diferencia de los métodos existentes que primero extraen propuestas y luego las clasifican, que dependen en gran medida de detectores de objetivos previamente entrenados o métodos marco sin propuestas, un conjunto de detectores de una sola etapa fuera de línea se actualiza fusionando incrustaciones de texto. El método propuesto en este artículo, Visual Grounding with TRansformers VGTR, se basa en el marco Transformer, es independiente de los detectores previamente entrenados y de la incrustación de palabras, y se utiliza para aprender características visuales semánticamente discriminativas. El experimento logró un rendimiento SOTA.

2. Introducción

  En primer lugar, señalar la definición, aplicación y dificultades del posicionamiento visual. Los primeros enfoques veían la localización visual como un caso especial de recuperación de imágenes basada en texto y la enmarcaban como la tarea de recuperar un referente de un conjunto de regiones candidatas en una imagen determinada. Estos métodos dependen en gran medida de detectores de objetos previamente entrenados y, a menudo, ignoran el contexto visual del objeto. Además, la mayoría de los métodos requieren un costo computacional adicional para generar y procesar propuestas candidatas.
  Algunos trabajos recientes eliminan el proceso de generación de Propuestas y localizan directamente el objetivo, pero las características visuales y textuales siguen siendo independientes entre sí. Para aliviar este problema, este artículo propone una red VGTR basada en Transformer de extremo a extremo, que puede capturar el contexto visual y lingüístico global sin generar propuestas de destino. En comparación con los métodos basados ​​en detectores fuera de línea o funciones de cuadrícula, VGTR trata la localización visual como un problema de regresión de coordenadas basado en el cuadro delimitador objetivo de la oración de consulta.

Insertar descripción de la imagen aquí
Como se muestra en la figura anterior, VGTR consta de cuatro módulos: un codificador básico, utilizado para calcular tokens básicos de pares de imagen-texto; un codificador de posicionamiento de doble flujo, utilizado para realizar razonamiento conjunto e interacción multimodal del lenguaje visual; un módulo de posicionamiento decodificación El procesador trata los tokens de texto como consultas de posicionamiento y propone características relacionadas con el objetivo a partir de los tokens visuales codificados; se utiliza un cabezal de predicción para realizar la regresión de coordenadas del cuadro delimitador. Además, se diseña un nuevo mecanismo de autoatención que reemplaza al original y se aplica a tokens visuales, estableciendo la asociación entre las dos modalidades y aprendiendo características visuales guiadas por texto sin reducir la capacidad de posicionamiento.

  Las contribuciones se resumen a continuación:

  • Se propone un marco VGTR de extremo a extremo para la localización visual sin la necesidad de detectores ni modelos de lenguaje previamente entrenados;
  • Se propone un módulo de atención guiada por texto para aprender características visuales guiadas por descripciones del lenguaje;
  • El método llega a SOTA.

3. Trabajo relacionado

3.1 Posicionamiento visual

  Este artículo divide el posicionamiento visual en dos categorías: rango de propuesta y sin propuesta. El primero genera primero un conjunto de propuestas de objetivos candidatos a partir de la imagen de entrada a través de un detector fuera de línea o un generador de propuestas, luego asocia descripciones de lenguaje y califica estas propuestas candidatas, y selecciona la que tiene la puntuación más alta como objetivo de posicionamiento. Estos métodos dependen en gran medida del rendimiento de detectores o generadores de propuestas previamente entrenados.
  Los métodos sin propuestas se centran en localizar directamente el objetivo de referencia y tienen un gran potencial en términos de precisión y velocidad de razonamiento.

3.2 Transformador visual

  Transformer ha sido muy popular recientemente en la detección de objetivos y la segmentación de imágenes. La serie DETR transforma mapas de características visuales en un conjunto de tokens para lograr SOTA.

4. Método

4.1 Codificadores visuales y de texto básicos

  Dada una imagen y un par de expresión de referencia ( I , E ) (I,E)( yo ,E ) , la tarea de localización visual tiene como objetivo utilizar el cuadro delimitador para localizar la instancia de destino descrita por la expresión de destino.
  Primero cambie el tamaño de la imagen aw × hw\times hw×h , y luego se envía a la red troncal de ResNet para extraer el mapa de características de la imagenF ∈ R ws × hs × d F\in \mathbb{R}^{\frac ws\times\frac hs \times d}FRsw×sh× d , dondesss es el tamaño del paso de la salida de la red troncal,ddd es el número de canales. Luego el mapa de características visualesFFF se transforma en tokens visualesX v = { vi } i = 1 T v X_v=\{ { { v }_i}\}_{i=1}^{T_v}Xv={ vyo}yo = 1tv,其中T v = ws × hs T_v=\frac ws\times\frac hstv=sw×shes el número de tokens, vi v_ivyolas dimensiones son ddd .
  Utilice un analizador suave basado en RNN para extraer tokens de texto: para la expresión dadaE = { et } t = 1 TE=\{e_t\}^{T}_{t=1}mi={ mit}t = 1t, donde TTT representa el número de palabras. Primero, use la capa de incrustación que se puede aprender, es decir,ut = Incrustación ( et ) u_t=\text{Incrustación}(e_t)tut=Incrustación ( et) cada palabraet e_tmitConvertir a vector ut u_ttut. Luego se aplica LSTM bidireccional para codificar el contexto de cada palabra. Luego calcula el k-ésimok tokens de texto entttht个单词上的注意力:
ht = Bi-LSTM ⁡ ( ut , ht − 1 ) ak , t = exp ⁡ ( fk T ht ) ∑ i = 1 T exp ⁡ ( fk T hi ) \begin{aligned} h_ {t}& =\operatorname{Bi-LSTM}(u_{t},h_{t-1}) \\ a_{k,t}& =\frac{\exp(f_k^Th_t)}{\sum_{ i=1}^T\exp(f_k^Th_i)} \end{alineado}htak , t=Bi-LSTM ( ut,ht - 1)=yo = 1texp ( fkthyo)exp ( fktht)Después de kkthk tokens de texto se definen como la suma de los pesos de la incrustación de palabras:
lk = ∑ t = 1 T ak , tut \boldsymbol{l}_k=\sum_{t=1}^Ta_{k,t}\boldsymbol{u} _tyok=t = 1tak , ttutLos tokens de texto finales se representan como X l = { lk } k = 1 T lXyo={ yok}k = 1tyo, donde T l T_ltyoes el número de tokens, lk l_kyoklas dimensiones son ddre .

4.2 Codificador de posicionamiento

  El codificador de localización consta de NN apilados.Compuesta por N capas independientes, cada capa contiene dos ramas visuales + de lenguaje independientes para procesar tokens visuales y de texto. Al igual que la capa Transformer, cada rama contiene tres subcapas: capa de norma, capa de autoatención de múltiples cabezales y capa directa FFN completamente conectada.

Rama de texto de autoatención

  Consultas dadas ql q_lqyo, de ii .Tokens de texto de la capa i X li X_l^iXyoyoObtener claves kl k_lkyo和 valores vl v_lvyo, la salida de la capa de autoatención de texto es:
T-Attn ⁡ ( ql , kl , vl ) = softmax ⁡ ( qlkl T d ) ⋅ vl \operatorname{T-Attn}(\boldsymbol{q}_l,\boldsymbol {k }_l,\boldsymbol{v}_l)=\operatorname{softmax}\left(\frac{\boldsymbol{q}_l\boldsymbol{k}_l^T}{\sqrt d}\right)\cdot\ símbolo en negrita{v}_lT-Atención ( qyo,kyo,vyo)=softmax(d qyokyot)vyoLuego aplique FFN, definido como FFN l \text{FFN}_lFFNyoObtener funciones de texto X li + 1 X_l^{i+1}Xyoyo + 1
X li + 1 = FFN l (T-Atención ( ql , kl , vl ) ) X_l^{i+1}=\text{FFN}_l\text{ (T-Atención}(q_l,k_l,v_l))Xyoyo + 1=FFNyo (T-Atención ( qyo,kyo,vyo))

Rama visual de la autoatención guiada por texto

  La estructura de la rama visual es similar a la rama de texto, pero hay un componente adicional llamado autoatención guiada por texto, cuyo objetivo es extraer características visuales destacadas bajo la guía de descripciones de texto. Específicamente, consultas dadas qv q_vqv, de la sección iiTokens visualesX vi X_v^ i de la capa iXvyoObtener claves kv k_vkv和 valores vv v_vvv. A continuación, la característica de texto X li + 1 X_l^{i+1}Xyoyo + 1Complemente las consultas visuales como información de orientación adicional. Para una implementación fluida, utilice tokens específicos para emparejar tokens de texto X li + 1 X_l^{i+1}Xyoyo + 1Sume los pesos y agregue consultas visuales qv q_vqv. por donde pasan los pesos qv q_vqvX li + 1 X_l^{i+1}Xyoyo + 1的点乘得到:
V − A ttn ( q ^ v , kv , vv ) = softmax ( q ^ vkv T d ) ⋅ vvq ^ v = qv + softmax ( qv ( X li + 1 ) T d ) ⋅ X li + 1 \mathrm{V-Attn}(\hat{\boldsymbol{q}}_v,\boldsymbol{k}_v,\boldsymbol{v}_v)=\mathrm{softmax}\left(\frac{\hat{\ negritasymbol{q}}_vk_v^T}{\sqrt{d}}\right)\cdot\boldsymbol{v}_v \\ \\ \begin{aligned}\hat{q}_v&=\boldsymbol{q}_v+\ mathrm{softmax}\left(\frac{\boldsymbol{q}_v(X_l^{i+1})^T}{\sqrt d}\right)\cdot X_l^{i+1}\end{aligned}VA la atención (q^v,kv,vv)=softmax(d q^vkvt)vvq^v=qv+softmax(d qv( Xyoyo + 1)t)Xyoyo + 1De manera similar, aplique FFN, expresado como FFN v \text{FFN}_vFFNvObtenga tokens visuales X vi + 1 X_v^{i+1}Xvyo + 1
X vi + 1 = FFN v ( V − A ttn ( q ^ v , kv , vv ) ) X_v^{i+1}=\mathrm{FFN}_v(\mathrm{V-Attn}(\hat{q }_v,k_v,v_v))Xvyo + 1=FFNv( v.A la atención (q^v,kv,vv))
La siguiente figura es un diagrama esquemático de la atención multimodal y el mecanismo de atención guiada por texto propuesto en este artículo:

Insertar descripción de la imagen aquí
  Las consultas de un mecanismo de autoatención multimodal típico se originan en una modalidad, mientras que las claves y los valores se originan en otra modalidad para realizar operaciones de autoatención estándar, similares a las operaciones de autoatención en el decodificador Transformer. Sin embargo, integrar información de texto en características de imagen de esta manera puede dañar las capacidades de posicionamiento, por lo que este artículo propone guiar las características visuales a través de tokens de texto para lograr un mayor rendimiento.

4.3 Decodificador de posicionamiento

  El decodificador también está compuesto por NN.Está compuesto por N capas independientes apiladas. Cada capa tiene 4 subcapas: capa de norma, capa de autoatención de consulta de posicionamiento, capa de autoatención de consulta de conexión a tierra, capa de autoatención de codificador-decodificador y capa de alimentación directa (FFN) completamente conectada.
  La entrada del decodificador de posicionamiento son los tokens de texto modificadosX l N X_l^NXyonorte, seguido de consultas de posicionamiento GGServicios G , además de tokens visualesX v N X_v^NXvnorteParticipación. Bajo la guía de consultas de posicionamiento, autoatención de consultas de posicionamiento y mecanismos de autoatención codificador-decodificador, se decodifican características visuales guiadas por texto.

Autoatención de consultas de posicionamiento

  Consultas dadas qg q_gqgramo, de ii .Consultas de posicionamiento para la capa i G i G^iGRAMOObtener claveskg k_g de ikgramo和 valores vg v_gvgramo. Luego aplique el mecanismo de autoatención estándar para realizar la mejora de la consulta:
G-Attn ( qg , kg , vg ) = softmax ( qgkg T d ) ⋅ vg \text{G-Attn}(q_g,k_g,v_g)=\text{ softmax }\left(\frac{q_gk_g^T}{\sqrt{d}}\right)\cdot v_gG-Atención ( qgramo,kgramo,vgramo)=softmax(d qgramokgramot)vgramoLas consultas de posicionamiento modificadas se obtienen luego mediante normalización de capas (LN):
G i + 1 = LN ( G − A ttn ( qg , kg , vg ) ) G^{i+1}=\mathrm{LN} (\mathrm{ G-Atención}(q_g,k_g,v_g))GRAMOyo + 1=LN ( GRAMOA la atención ( qgramo,kgramo,vgramo))

Autoatención codificador-decodificador

  La autoatención del codificador-decodificador localizará las consultas G i + 1 G^{i+1}GRAMOi + 1 se trata como consultasfgq f_g^qFgramoq, de los tokens visuales codificados X v N X_v^NXvnorteObtener claves fvk f_v^kFvk和 valores fvvf^v_vFvvComo entrada, genere las características extraídas relacionadas con el texto:
ED-Attn ⁡ ( qg , kv , vv ) = softmax ⁡ ( qgkv T d ) ⋅ vv \operatorname{ED-Attn}(q_g,k_v,v_v)=\operatorname{ softmax}\left(\frac{q_gk_v^T}{\sqrt d}\right)\cdot v_vED-Atención ( qgramo,kv,vv)=softmax(d qgramokvt)vvFinalmente, se aplica FFN, denotado como FFN ed \text{FFN}_{ed}FFNe dObtenga las incrustaciones finales ZZZ
Z = FFN ed ( ED-Atención ( qg , kv , vv ) ) Z=\text{FFN}_{ed}(\text{ED-Atención}(q_g,k_v,v_v))z=FFNe d( ED-Atención ( qgramo,kv,vv))

4.4 Cabeza de predicción y objetivo de entrenamiento

  Este artículo trata la tarea de posicionamiento del objetivo referencial como un problema de regresión de coordenadas del cuadro delimitador. Obtenga la incrustación transformada del decodificador de posicionamiento Z = { zi } i = 1 K ∈ RK × d Z=\{z_{\boldsymbol{i}}\}_{i=1}^{K}\in\ mathbb{ R}^{K\veces d}z={ zyo}yo = 1kRK × d , luego concatene todos los vectores transformados y luego use el cabezal de predicción para devolver las coordenadas del punto central y el ancho y alto del objetivo. El cabezal de predicción consta de dos capas completamente conectadas seguidas de una capa de activación ReLU.
  Los objetivos del entrenamiento son la pérdida de L1 y la pérdida general de IoU (GIoU)​​L iou ( ⋅ ) \mathcal{L}_{iou}(\cdot)lyo o tu( ) L oss = λ L 1 ∣ ∣ b − b ^ ∣ ∣ 1 + λ L iou L iou ( b , b ^ ) Pérdida=\lambda_{L_1}||b-\hat{b} ;
pérdida _=yol1∣∣ segundob^1+yolyo o tulyo o tu( b ,b^ )dondeb ^ \hat bb^ representa el cuadro delimitador del objetivo previsto,bbb es GT,λ L 1 \lambda_{L_1}yol1λ L iou ∈ R \lambda_{L_{iou}}\in \mathbb{R}yolyo o tuR es un hiperparámetro que equilibra las dos pérdidas.

5. Experimentar

5.1 Conjunto de datos

  Entidades de Flickr30k、RefCOCO/RefCOCO+/RefCOCOg。

5.2 Detalles de implementación

Configuración de hiperparámetros

  Tamaño de imagen de entrada 512 × 512 512\times512512×512 , la longitud máxima de la oración es 20 y el tamaño del paso de salida de Backbone ess = 32 s=32s=32 . Para todos los conjuntos de datos, se extraen 4 tokens de texto. El número de cabezas en atención de múltiples cabezas es 8 y el tamaño de la capa ocultad = 256 d = 256d=256 , el número de capas de VGTRes N = 2 N=2norte=2λ L 1 = 5 \lambda_{L_1}=5yol1=5 ,λ L iou = 2 \lambda_{L_{iou}}=2yolyo o tu=2 .

Detalles de formación y evaluación.

  Optimizador AdamW, tasa de aprendizaje inicial 1 e − 4 1e-41 mi4 , caída de peso1 e - 5 1e-51 mi5. Columna vertebral de CNN: ResNet50/101. Los pesos de inicialización adoptan los pesos previamente entrenados con datos de MSCOCO. Se entrenan un total de 120 épocas. En las épocas 70 y 90, la tasa de aprendizaje disminuye en un10% 10\%10% . Utilizando [email protected] como índice de evaluación,

5.3 Comparación con el método SOTA

  
Insertar descripción de la imagen aquí

5.4 Experimento de ablación

Aporte de cada parte

  
Insertar descripción de la imagen aquí

Eficacia de la autoatención guiada por textos

  
Insertar descripción de la imagen aquí

número de capas

  Misma tabla 3.

5.5 Análisis cualitativo

  
Insertar descripción de la imagen aquí

6. Conclusión

  Este artículo propone un marco VGTR basado en Transformer de una sola etapa para tareas de posicionamiento visual, y los experimentos muestran que el método es efectivo.

escribe en la parte de atrás

  Este artículo es relativamente breve, pero puede considerarse como una buena aplicación y mejora de Transformer en 2021. Ahora el efecto no es tan explosivo. Además, también es necesario mejorar las habilidades de redacción del autor en el artículo: simplemente se hace clic en muchos conceptos sin profundizar. Además, una parte del capítulo se desperdicia en la estructura del Transformador, lo cual no es apropiado.

Supongo que te gusta

Origin blog.csdn.net/qq_38929105/article/details/132360484
Recomendado
Clasificación