Actualizar métodos antiguos PERO? WiCo: cooperación beneficiosa para todos en notas de lectura de documentos de segmentación de imágenes de referencia de abajo hacia arriba y de arriba hacia abajo

escribir delante

  La nueva semana casi ha terminado. Continúo codificando y haciendo experimentos... pero las publicaciones del blog de esta semana aún están disponibles ~ El
  título de este artículo es muy atractivo y contiene un marco muy popular para VQA en 2017: Bottom-Up y Atención de arriba hacia abajo para subtítulos de imágenes y respuesta visual a preguntas . La razón es que ganó el campeonato del desafío VQA de 2017 y luego creó un seguimiento de dos años. Me pregunto qué tiene que ver este artículo con BUTD. Déjame decirte lentamente.

1. Resumen

  En primer lugar, se señala que los métodos de arriba hacia abajo (TD de arriba hacia abajo) y ascendente (BU de abajo hacia arriba) son las dos formas principales de resolver el problema de la segmentación de referencia, pero ambos tienen desventajas: TD carece de alineación de estado multimodo de grano fino causará errores Polar Negativo (PN) (? ¿Qué es esto); BU causará errores Positivos Inferiores (IP) (? ¿Qué es esto) debido a la falta de información previa sobre el objetivo. Si bien estos dos métodos son complementarios para resolver errores, la combinación directa dificultará la inferencia del modelo. Por lo tanto, este artículo propone la Cooperación Ganar-Ganar (WiCo), que utiliza la complementariedad de estos dos métodos para lograr mejoras bidireccionales en la interacción e integración multimodal. Para la interacción multimodal, se propone la interacción de funciones complementarias (CFI) para proporcionar información detallada a la sucursal de BU para mejorar la información complementaria. Para la integración multimodal, se propone la integración de puntuación gaussiana (GSI) para modelar la distribución de rendimiento gaussiana de las dos ramas, y la puntuación de confianza de la distribución se utiliza para ponderar los resultados integrados. Los resultados experimentales muestran que WiCo funciona muy bien.

2. Introducción

  Primero, la definición de segmentación de imágenes de referencia (RIS) se refiere a la segmentación de imágenes. En segundo lugar, los métodos actuales se pueden dividir en dos categorías: de arriba hacia abajo (top-down TD) y de abajo hacia arriba (bottom-up BU). TD primero calcula las propuestas regionales derivadas del detector de objetos previamente entrenado, luego realiza una alineación intermodal con la consulta del lenguaje de entrada y, finalmente, decodifica y recupera las propuestas regionales con la puntuación de confianza más alta como resultado de la segmentación. El método BT calcula la alineación intermodal detallada entre cada píxel y la consulta, y luego decodifica los píxeles de los objetivos relevantes.

Insertar descripción de la imagen aquí
  Según la observación de la figura anterior, hay dos tipos de errores en los métodos TD y BU: Polar Negativo (PN): la predicción no tiene ninguna relación con GT; Positivo Inferior (IP): la máscara predicha no tiene un alto grado de coincidencia con GT (IoU ∈ [ 0.5 , 0.8 ] \text{IoU}\in[0.5,0.8]pagaré[ 0,5 ,0,8 ] ).
  Para analizar las razones de la situación anterior, se traza la distribución de IoU de TD y BU:

Insertar descripción de la imagen aquí
  Divida la curva de distribución en dos partes: conjunto de muestras positivas (IoU>0,5) y conjunto de muestras negativas (IoU<0,5). Dado que la información anterior suprime las muestras de IP, la precisión del conjunto de muestras positivas de TP es mayor que la del método BT. Sin embargo, debido a la falta de alineación intermodal detallada, el método TP es más fácil de generar muestras de PN. Por lo tanto, combinando las ventajas de estos dos métodos, en teoría se pueden lograr buenos resultados. Sin embargo, la combinación directa no es posible, por lo que este artículo propone una cooperación beneficiosa para todos (WiCo) para combinar las ramas TD y BU de manera adaptativa.
  WiCo consta de dos módulos: Interacción de funciones complementarias (CFI) e Integración de puntuación gaussiana (GSI). CFI está diseñado para realizar la interacción entre las dos ramas y se utiliza para compensar la falta de información detallada en la rama TD y la información previa del objetivo en la rama BU. GSI tiene como objetivo modelar la distribución de rendimiento gaussiana de las ramas TD y BU integrando los resultados de las dos ramas empleando una puntuación de confianza en la distribución. Las contribuciones de este artículo se resumen a continuación:

  • Ante errores de PN e IP, al analizar algunos métodos TD y BU, se encuentra que estos dos métodos son complementarios.
  • Se propone que WiCo aproveche al máximo las características de los métodos TD y BU para complementarse entre sí en la interacción e integración multimodal.
  • Una gran cantidad de experimentos muestran que el efecto es muy bueno.

3. Trabajo relacionado

Método de arriba hacia abajo

  MAttNet、NMTree、CAC。

Método ascendente

  Transformador de visión (ViT) y una serie de otros trabajos.

4. Método

4.1 Marco general

Insertar descripción de la imagen aquí
  Como se muestra en la figura anterior, WiCo es compatible con cualquier método TD y BU. Su red consta de tres partes: sucursal TD, sucursal BU e "Interacción y luego Integración". La rama TD se utiliza para implementar métodos TD y la rama BU se utiliza para implementar métodos BU. La interacción y luego la integración es la clave de WiCo, cuyo objetivo es establecer la conexión entre las ramas TD y BU para lograr un efecto de mejora bidireccional.
  Los métodos de tipo TD son esencialmente redes de coincidencia intermodales. Primero, use el detector previamente entrenado y la red de coincidencia multimodal para obtener máscaras de instancia M = { m 1 ∈ { 0 , 1 } H × W , m 2 , . . . , mn } \mathcal{M}=\{ m^ 1\in\{0,1\}^{H\times W},m^2,...,m^n\}METRO={ m1{ 0 ,1 }Alto × ancho ,metro2 ,... ,metron }, ejemplo a caballo entre incrustaciónE = { E i 1 ∈ RC , E i 2 , . . . , E in } \mathcal{E}=\{E_i^1\in\mathbb{R}^C,E_i ^2 ,...,E_i^n\}mi={ mii1Rc ,mii2,... ,miinorte} y puntuación de alineación intermodalS = { s 1 , s 2 , . . . , sn } S= \{s^1,s^2,...,s^n\}S={ s1 ,s2 ,... ,snorte }. En general, la rama TD genera un conjunto triple de instancias{ M , E , S } = { ( m 1 , E i 1 , s 1 ) , ( m 2 , E i 2 , s 2 ) , . . . , ( mn , E en , sn ) } \{\mathcal{M},\mathcal{E},S\}=\{(m^1,E_i^1,s^1),(m^2,E_i^2 , s^2),...,(m^n,E_i^n,s^n)\}{ M ,mi ,S }={( m1 ,mii1,s1 ),( m2 ,mii2,s2 ),... ,( mnorte ,miinorte,sn )}P td P_{td}extraído de este conjuntoPAGtd _Se puede expresar como:
P td = m argmax ( S ) ∗ S argmax ( S ) P_{td}=m^{\text{argmax}(\mathcal{S})}*S^{\text{argmax} (\mathcal{S})}PAGtd _=metroargmáx ( S )Sargmax ( S ) dondeP td P_ {td}PAGtd _es el resultado logits de la segmentación. El resultado de la segmentación de dos clases es m argmax ( S ) m^{\text{argmax}}(\mathcal{S})metroargmáx (S).
  La esencia del método BU es una red de fusión intermodal, cuyo objetivo es codificar el espacio de incrustación de píxeles intermodal de imágenes y textosE p ∈ RC × H × W E_p\in\mathbb{R}^{C\times H \veces W}mipRC × H × W y decodificarlo en el resultado de la segmentaciónP bu ∈ RH × W P_{bu} \in \mathbb{R}^{H \times W}PAGb tuRH × W , expresado como:
P bu = σ ( Lineal ⁡ ( E p ) ) P_ {bu}=\sigma(\operatorname{Lineal}(E_p))PAGb tu=σ ( Lineal ( Ep)) dondeLineal ⁡ \operatorname{Lineal}Lineal es1 × 1 1\times11×1 convolución, para regresión de logits,σ ​​​​( ⋅ ) \sigma(\cdot)σ ( ) es la función sigmoidea,P bu P_{bu}PAGb tues el mapa de probabilidad generado, al predecir τ \tauτ para extraer el resultado de la segmentación (τ ( P bu > τ ) \tau(P_{bu}>\tau)t ( Pb tu>τ ) ). Generalmente, la rama BU genera resultados de segmentación e incrustación de píxeles multimodales.
  Interacción y luego Integración tiene como objetivo lograr una fusión complementaria de los métodos TD y BU. Las salidas de las sucursales BU y TP se utilizan como entradas a CFI para actualizar características y resultados, y los resultados actualizados se ingresan a GSI.

4.2 Interacción de funciones complementarias (CFI)

Insertar descripción de la imagen aquí
Supongamos que la incrustación de píxeles E p E_p se ha obtenido de la rama BUmipy conjunto triple de instancias { M , E , S } \{\mathcal{M},\mathcal{E},S\}{ M ,mi ,S } , CFI tiene como objetivo mejorar la información detallada de la incrustación de píxeles y la información de destino del conjunto de tripletes de instancias.

De arriba hacia abajo para abajo hacia arriba

  Para mejorar E p E_pmip, asigne incrustaciones de píxeles de fila a cada instancia mejorada que incrusta E ^ \hat{\mathcal{E}}mi^ En el píxel correspondiente, genere incrustaciones de píxeles mejoradasE ^ p \hat E_pmi^p
E ^ p { x , y } = concat ⁡ ( E p { x , y } ; ∑ j = 1 n 1 { mj [ x , y ] = 1 } E ^ ij ) \hat{E}_{p} ^{\{x,y\}}=\operatorname{concat}(E_{p}^{\{x,y\}};\sum_{j=1}^{n}\mathbb{1}_{ \{m^j[x,y]=1\}}\hat{E}_{i}^{j})mi^pag{ x , y }=concatenar ( mipag{ x , y };j = 1norte1{ mj [x,y]=1}mi^ij) en el queE p { x , y } E_ {p}^{\{x,y\}}mipag{ x , y }Indica que la posición del píxel es (x, y) (x,y)( x ,Incrustación de píxeles mejorada en y ) , E ij {E}_{i}^{j}miijParte IIIncorporaciones de instancias mejoradas para instancias i . 1 { mj [ x , y ] = 1 } \mathbb{1}_{\{m^j[x,y]=1\}}1{ mj [x,y]=1}es la función índice, cuando (x, y) (x,y)( x ,jjen y )Cuando el valor de la máscara j es 1, su valor es igual a 1; de lo contrario, es 0. Las incorporaciones de píxeles mejoradas luego se decodifican en nuevos resultados de BU:
P ^ bu = signoid ⁡ ( Lineal ⁡ ( E ^ p ) ) \hat{P}_{bu}=\operatorname{signoid}(\operatorname{Linear}( \ sombrero{E}_p))PAG^b tu=signoide ( Lineal (mi^p)) dondeLineal ⁡ \operatorname{Lineal}Lineal comparte el Lineal anterior⁡ \operatorname{Linear}Peso lineal .

De abajo hacia arriba para arriba hacia abajo

  Incrustaciones para instancias mejoradas E \mathcal{E}E , utilizando el decodificador visual Transformer como módulo de interacción de funciones, a través de información de incrustación de píxeles de grano finoE p E_{p}mippara refinar las incrustaciones de instancias. Antes de la entrada, las incrustaciones de instancias se pasan a través de puntuaciones de alineación intermodal S \mathcal{S}S para preservar información multimodal:
E ⊙ S = { E p 1 ∗ s 1 , E p 2 ∗ s 2 , . . . , E pn ∗ sn } \mathcal{E}\odot\mathcal{S}=\ {E_p^1*s^1,E_p^2*s^2,...,E_p^n*s^n\}miS={ mipag1s1 ,mipag2s2 ,... ,mipagnortesn }Después de eso, el decodificador Transformer incorpora la instancia modeladaE ⊙ S \mathcal{E}\odot\mathcal{S}miS como consultas para generar una instancia mejorada incrustadaE ^ \hat{\mathcal{E}}mi^ y puntuación de alineación mejorada previstaS ^ \hat{\mathcal{S}}S^ . Finalmente actualice el resultado de la segmentación de la rama TD:
P ^ td = m argmax ( S ^ ) ∗ S ^ argmax ( S ^ ) \hat{P}_{td} =m^{\text{argmax}(\hat{ S} )}*\sombrero{S}^{\text{argmax}(\sombrero{S})}PAG^td _=metroargmáx (S^ )S^argmáx (S^ )

4.3 Integración de puntuación gaussiana (GSI)

  La entrada de GSI es la salida de la rama TP P ^ td \hat P_{td}PAG^td _y la salida de la rama BU P ^ bu \hat P_{bu}PAG^b tu. GSI consta de tres pasos: predicción de distribución, muestreo de puntuaciones e integración de resultados.

Predicción de distribución

  Elija la distribución gaussiana para modelar la distribución del rendimiento y predecir la media μ \mu en función de los resultados y las características de las dos ramas.μ y desviación estándarσ \sigmaσ :
μ td , σ td = dividir ⁡ ( MLP ⁡ ( E ^ i argmax ⁡ ( S ^ ) ) μ bu , σ bu = dividir ( MLP ( GAP ( E p ⊙ P ^ bu ) ) ) \begin{reunido} \mu_{td},\sigma_{td} =\operatorname{split}(\operatorname{MLP}(\hat{E}_i^{\operatorname{argmax}(\hat{S})}) \\ \mu_ {bu},\sigma_{bu} =\text{split}(\text{MLP}(\text{GAP}(E_p\odot\hat{P}_{bu}))) \end{reunidos}metrotd _,pagtd _=dividir ( MLP (mi^iargmáx (S^ ))metrob tu,pagb tu=dividir ( MLP ( GAP ( EpPAG^b tu)) )donde MLP ( ⋅ ) \text{MLP}(\cdot)MLP ( ) es una capa de 3 capas completamente conectada,GAP ( ⋅ ) \text{GAP}(\cdot)GAP ( ) es la operación de agrupación promedio global,dividida ( ⋅ ) \text{split}(\cdot)split ( ) es la operación de división de canales. Según la media y la desviación estándar previstas, la distribución de rendimiento de BUTD es:N ( μ bu , σ bu ) N(\mu_{bu},\sigma_{bu})norte ( metrob tu,pagb tu)N ( μ td , σ td ) N(\mu_{td},\sigma_{td})norte ( metrotd _,pagtd _)

muestreo de puntuación

  Según diferentes estrategias de optimización, podemos modificar el proceso de muestreo utilizando el truco de multiparametrización: IoU td = μ td + σ td ∗ ϵ , ϵ ∼
norte ( 0 , I ) IoU bu = μ bu + σ bu ∗ ϵ , ϵ ∼ N ( 0 , I ) \begin{reunidos} \text{IoU}_{td} =\mu_{td}+\sigma_{td} *\epsilon,\ epsilon\sim\mathcal{N}(0,\mathbf{I}) \\ \text{IoU}_{bu} =\mu_{bu}+\sigma_{bu}*\epsilon,\ épsilon\sim\mathcal {N}(0,\mathbf{I}) \end{reunidos}pagarétd _=metrotd _+pagtd _ϵ ,ϵnorte ( 0 ,yo )pagaréb tu=metrob tu+pagb tuϵ ,ϵnorte ( 0 ,yo )Entre ellos IoU td \text{IoU}_{td}pagarétd _IoU bu \text{IoU}_{bu}pagaréb tuRepresenta las puntuaciones de confianza de las sucursales TD y BU. El modelo de predicción de distribución se optimiza utilizando la puntuación de confianza prevista y la pérdida suave de L1 de GT IoU.

Integración de resultados

  argmax ( ⋅ ) \text{argmax}(\cdot)argmax ( ) es una operación no diferenciable en la retropropagación de gradiente, por lo que en su lugar se utiliza una operación diferenciable en la fase de entrenamiento:λ = one − hot ( argmax ( S ^ ) ) + S ^ − sg ( S ^ ) \ lambda= \mathrm{uno}-\mathrm{hot}(\mathrm{argmax}(\hat{\mathcal{S}}))+\hat{\mathcal{S}}-\mathrm{sg}(\hat {\ matemático{S}})yo=unocaliente ( argmax (S^ ))+S^sg (S^ )
en el queλ ∈ { 0 , 1 } n \lambda\in\{0,1\}^nyo{ 0 ,1 }n es el vector índice binario del valor máximo,uno − hot ( ⋅ ) \mathrm{one}-\mathrm{hot}(\cdot)unohot ( ) es una función de codificación one-hot,sg ( ⋅ ) \mathrm{sg}(\cdot)sg ( ) es la operación para evitar el gradiente. λ\lambdaλ se utiliza para establecer la rama TDP ^ td ′ \hat{P}_{td}^{\prime}PAG^td _Resultado de segmentación diferenciable:
P ^ td ′ = ∑ inmj ∗ λ j ∗ sj \hat{P}_{td}^{\prime} =\sum_i^nm^j*\lambda^j*s^jPAG^td _=inortemetrojyojsj dondennn es el número de instancias. Para obtener el resultado final de la segmentación, se utiliza la puntuación de confianza para calcular la suma de pesos de las ramas BUTD:
P ^ = ( P ^ td ′ ∗ I o U td + P ^ bu ∗ I o U bu ) / 2 \hat{ P }=(\hat{P}^{'}_{td}*\mathrm{IoU}_{td}+\hat{P}_{bu}*\mathrm{IoU}_{bu})/2PAG^=(PAG^td _pagarétd _+PAG^b tupagaréb tu) /2El
resultado finalP ^ \hat{P}PAG^ se utiliza para calcular la pérdida de segmentación de la máscara GT en la fase de entrenamiento y después del umbralτ \tauτ filtra para obtener una máscara binaria.

5. Experimentar

5.1 Pasos experimentales

  • Conjuntos de datos: RefCOCO, RefCOCO+, RefCOCOg;
  • Rama TD: MAttNet, Mask2Former (ResNet-50) como extractor de instancias;
  • Sucursal BU: VLT\CRIS\LAVT;
  • Indicadores de evaluación: máscara IoU;
  • Optimizador: AdamW, tasa de aprendizaje: 1e-5, caída de peso: 5e-2.
  • Número de iteraciones: 5000;
  • GPU: V100;
  • Bloque: 24;
  • Umbral de binarización τ = 0,35 \tau=0,35t=0,35 (oh, este lugar es interesante, normalmente 0,5).

5.2 Análisis cuantitativo

resultados principales

  
Insertar descripción de la imagen aquí

Los resultados de diferentes estrategias de integración

  
Insertar descripción de la imagen aquí

Eficacia de las interacciones de funciones.

  Misma tabla 2.

Efectividad complementaria de combinar diferentes modelos

  
Insertar descripción de la imagen aquí
  
Insertar descripción de la imagen aquí

5.2 Análisis cualitativo

Insertar descripción de la imagen aquí
  
Insertar descripción de la imagen aquí

6. Conclusión

  Los métodos BUTD existentes no resuelven los errores de PN e IP, pero pueden complementarse entre sí para manejar mejor estos dos tipos de errores. Para aprovechar al máximo esta complementariedad, este artículo sigue la estrategia de Interacción y luego Integración para establecer el mecanismo WiCo para lograr una mejora bidireccional. Específicamente, se propone CFI para permitir que la información objetivo a priori de la rama TD y la información detallada de la rama BU interactúen entre sí, y se propone GSI para modelar la distribución del rendimiento de las dos ramas de BUTD, de modo adaptativo. integrando los resultados de las dos ramas. Los resultados experimentales muestran que WiCo puede mejorar eficazmente el rendimiento del método BUTD.

escribe en la parte de atrás

  También hay una parte en el apéndice sobre el cálculo de IoU, así como una introducción más detallada a los errores de PN e IP, y se utilizan más experimentos para demostrarlo. Este artículo también tiene una idea relativamente novedosa. Define el problema desde la perspectiva de IoU. No sé cuál fue la motivación del autor para escribirlo. ¿Podría ser que hizo este experimento y descubrió el problema? Jaja, espero poder conocer al autor y preguntarle en persona algún día.
  Respuesta a la pregunta original: No sé cómo se relaciona este artículo con BUTD . Resulta que combina las operaciones de BU y TD, y los dos deberían tener funciones similares.

Supongo que te gusta

Origin blog.csdn.net/qq_38929105/article/details/131470156
Recomendado
Clasificación