Actualizar métodos antiguos PERO? WiCo: cooperación beneficiosa para todos en notas de lectura de documentos de segmentación de imágenes de referencia de abajo hacia arriba y de arriba hacia abajo
escribir delante
La nueva semana casi ha terminado. Continúo codificando y haciendo experimentos... pero las publicaciones del blog de esta semana aún están disponibles ~ El
título de este artículo es muy atractivo y contiene un marco muy popular para VQA en 2017: Bottom-Up y Atención de arriba hacia abajo para subtítulos de imágenes y respuesta visual a preguntas . La razón es que ganó el campeonato del desafío VQA de 2017 y luego creó un seguimiento de dos años. Me pregunto qué tiene que ver este artículo con BUTD. Déjame decirte lentamente.
- Discurso en papel: WiCo: Cooperación beneficiosa para todos en la segmentación de imágenes de referencia de abajo hacia arriba y de arriba hacia abajo
- Dirección del código: aún no proporcionada, el resumen dice que será de código abierto
- En: ICRA 2023
1. Resumen
En primer lugar, se señala que los métodos de arriba hacia abajo (TD de arriba hacia abajo) y ascendente (BU de abajo hacia arriba) son las dos formas principales de resolver el problema de la segmentación de referencia, pero ambos tienen desventajas: TD carece de alineación de estado multimodo de grano fino causará errores Polar Negativo (PN) (? ¿Qué es esto); BU causará errores Positivos Inferiores (IP) (? ¿Qué es esto) debido a la falta de información previa sobre el objetivo. Si bien estos dos métodos son complementarios para resolver errores, la combinación directa dificultará la inferencia del modelo. Por lo tanto, este artículo propone la Cooperación Ganar-Ganar (WiCo), que utiliza la complementariedad de estos dos métodos para lograr mejoras bidireccionales en la interacción e integración multimodal. Para la interacción multimodal, se propone la interacción de funciones complementarias (CFI) para proporcionar información detallada a la sucursal de BU para mejorar la información complementaria. Para la integración multimodal, se propone la integración de puntuación gaussiana (GSI) para modelar la distribución de rendimiento gaussiana de las dos ramas, y la puntuación de confianza de la distribución se utiliza para ponderar los resultados integrados. Los resultados experimentales muestran que WiCo funciona muy bien.
2. Introducción
Primero, la definición de segmentación de imágenes de referencia (RIS) se refiere a la segmentación de imágenes. En segundo lugar, los métodos actuales se pueden dividir en dos categorías: de arriba hacia abajo (top-down TD) y de abajo hacia arriba (bottom-up BU). TD primero calcula las propuestas regionales derivadas del detector de objetos previamente entrenado, luego realiza una alineación intermodal con la consulta del lenguaje de entrada y, finalmente, decodifica y recupera las propuestas regionales con la puntuación de confianza más alta como resultado de la segmentación. El método BT calcula la alineación intermodal detallada entre cada píxel y la consulta, y luego decodifica los píxeles de los objetivos relevantes.
Según la observación de la figura anterior, hay dos tipos de errores en los métodos TD y BU: Polar Negativo (PN): la predicción no tiene ninguna relación con GT; Positivo Inferior (IP): la máscara predicha no tiene un alto grado de coincidencia con GT (IoU ∈ [ 0.5 , 0.8 ] \text{IoU}\in[0.5,0.8]pagaré∈[ 0,5 ,0,8 ] ).
Para analizar las razones de la situación anterior, se traza la distribución de IoU de TD y BU:
Divida la curva de distribución en dos partes: conjunto de muestras positivas (IoU>0,5) y conjunto de muestras negativas (IoU<0,5). Dado que la información anterior suprime las muestras de IP, la precisión del conjunto de muestras positivas de TP es mayor que la del método BT. Sin embargo, debido a la falta de alineación intermodal detallada, el método TP es más fácil de generar muestras de PN. Por lo tanto, combinando las ventajas de estos dos métodos, en teoría se pueden lograr buenos resultados. Sin embargo, la combinación directa no es posible, por lo que este artículo propone una cooperación beneficiosa para todos (WiCo) para combinar las ramas TD y BU de manera adaptativa.
WiCo consta de dos módulos: Interacción de funciones complementarias (CFI) e Integración de puntuación gaussiana (GSI). CFI está diseñado para realizar la interacción entre las dos ramas y se utiliza para compensar la falta de información detallada en la rama TD y la información previa del objetivo en la rama BU. GSI tiene como objetivo modelar la distribución de rendimiento gaussiana de las ramas TD y BU integrando los resultados de las dos ramas empleando una puntuación de confianza en la distribución. Las contribuciones de este artículo se resumen a continuación:
- Ante errores de PN e IP, al analizar algunos métodos TD y BU, se encuentra que estos dos métodos son complementarios.
- Se propone que WiCo aproveche al máximo las características de los métodos TD y BU para complementarse entre sí en la interacción e integración multimodal.
- Una gran cantidad de experimentos muestran que el efecto es muy bueno.
3. Trabajo relacionado
Método de arriba hacia abajo
MAttNet、NMTree、CAC。
Método ascendente
Transformador de visión (ViT) y una serie de otros trabajos.
4. Método
4.1 Marco general
Como se muestra en la figura anterior, WiCo es compatible con cualquier método TD y BU. Su red consta de tres partes: sucursal TD, sucursal BU e "Interacción y luego Integración". La rama TD se utiliza para implementar métodos TD y la rama BU se utiliza para implementar métodos BU. La interacción y luego la integración es la clave de WiCo, cuyo objetivo es establecer la conexión entre las ramas TD y BU para lograr un efecto de mejora bidireccional.
Los métodos de tipo TD son esencialmente redes de coincidencia intermodales. Primero, use el detector previamente entrenado y la red de coincidencia multimodal para obtener máscaras de instancia M = { m 1 ∈ { 0 , 1 } H × W , m 2 , . . . , mn } \mathcal{M}=\{ m^ 1\in\{0,1\}^{H\times W},m^2,...,m^n\}METRO={
m1∈{
0 ,1 }Alto × ancho ,metro2 ,... ,metron }, ejemplo a caballo entre incrustaciónE = { E i 1 ∈ RC , E i 2 , . . . , E in } \mathcal{E}=\{E_i^1\in\mathbb{R}^C,E_i ^2 ,...,E_i^n\}mi={
mii1∈Rc ,mii2,... ,miinorte} y puntuación de alineación intermodalS = { s 1 , s 2 , . . . , sn } S= \{s^1,s^2,...,s^n\}S={
s1 ,s2 ,... ,snorte }. En general, la rama TD genera un conjunto triple de instancias{ M , E , S } = { ( m 1 , E i 1 , s 1 ) , ( m 2 , E i 2 , s 2 ) , . . . , ( mn , E en , sn ) } \{\mathcal{M},\mathcal{E},S\}=\{(m^1,E_i^1,s^1),(m^2,E_i^2 , s^2),...,(m^n,E_i^n,s^n)\}{
M ,mi ,S }={( m1 ,mii1,s1 ),( m2 ,mii2,s2 ),... ,( mnorte ,miinorte,sn )}P td P_{td}extraído de este conjuntoPAGtd _Se puede expresar como:
P td = m argmax ( S ) ∗ S argmax ( S ) P_{td}=m^{\text{argmax}(\mathcal{S})}*S^{\text{argmax} (\mathcal{S})}PAGtd _=metroargmáx ( S )∗Sargmax ( S ) dondeP td P_ {td}PAGtd _es el resultado logits de la segmentación. El resultado de la segmentación de dos clases es m argmax ( S ) m^{\text{argmax}}(\mathcal{S})metroargmáx (S).
La esencia del método BU es una red de fusión intermodal, cuyo objetivo es codificar el espacio de incrustación de píxeles intermodal de imágenes y textosE p ∈ RC × H × W E_p\in\mathbb{R}^{C\times H \veces W}mip∈RC × H × W y decodificarlo en el resultado de la segmentaciónP bu ∈ RH × W P_{bu} \in \mathbb{R}^{H \times W}PAGb tu∈RH × W , expresado como:
P bu = σ ( Lineal ( E p ) ) P_ {bu}=\sigma(\operatorname{Lineal}(E_p))PAGb tu=σ ( Lineal ( Ep)) dondeLineal \operatorname{Lineal}Lineal es1 × 1 1\times11×1 convolución, para regresión de logits,σ ( ⋅ ) \sigma(\cdot)σ ( ⋅ ) es la función sigmoidea,P bu P_{bu}PAGb tues el mapa de probabilidad generado, al predecir τ \tauτ para extraer el resultado de la segmentación (τ ( P bu > τ ) \tau(P_{bu}>\tau)t ( Pb tu>τ ) ). Generalmente, la rama BU genera resultados de segmentación e incrustación de píxeles multimodales.
Interacción y luego Integración tiene como objetivo lograr una fusión complementaria de los métodos TD y BU. Las salidas de las sucursales BU y TP se utilizan como entradas a CFI para actualizar características y resultados, y los resultados actualizados se ingresan a GSI.
4.2 Interacción de funciones complementarias (CFI)
Supongamos que la incrustación de píxeles E p E_p se ha obtenido de la rama BUmipy conjunto triple de instancias { M , E , S } \{\mathcal{M},\mathcal{E},S\}{
M ,mi ,S } , CFI tiene como objetivo mejorar la información detallada de la incrustación de píxeles y la información de destino del conjunto de tripletes de instancias.
De arriba hacia abajo para abajo hacia arriba
Para mejorar E p E_pmip, asigne incrustaciones de píxeles de fila a cada instancia mejorada que incrusta E ^ \hat{\mathcal{E}}mi^ En el píxel correspondiente, genere incrustaciones de píxeles mejoradasE ^ p \hat E_pmi^p:
E ^ p { x , y } = concat ( E p { x , y } ; ∑ j = 1 n 1 { mj [ x , y ] = 1 } E ^ ij ) \hat{E}_{p} ^{\{x,y\}}=\operatorname{concat}(E_{p}^{\{x,y\}};\sum_{j=1}^{n}\mathbb{1}_{ \{m^j[x,y]=1\}}\hat{E}_{i}^{j})mi^pag{
x , y }=concatenar ( mipag{
x , y };j = 1∑norte1{
mj [x,y]=1}mi^ij) en el queE p { x , y } E_ {p}^{\{x,y\}}mipag{
x , y }Indica que la posición del píxel es (x, y) (x,y)( x ,Incrustación de píxeles mejorada en y ) , E ij {E}_{i}^{j}miijParte IIIncorporaciones de instancias mejoradas para instancias i . 1 { mj [ x , y ] = 1 } \mathbb{1}_{\{m^j[x,y]=1\}}1{
mj [x,y]=1}es la función índice, cuando (x, y) (x,y)( x ,jjen y )Cuando el valor de la máscara j es 1, su valor es igual a 1; de lo contrario, es 0. Las incorporaciones de píxeles mejoradas luego se decodifican en nuevos resultados de BU:
P ^ bu = signoid ( Lineal ( E ^ p ) ) \hat{P}_{bu}=\operatorname{signoid}(\operatorname{Linear}( \ sombrero{E}_p))PAG^b tu=signoide ( Lineal (mi^p)) dondeLineal \operatorname{Lineal}Lineal comparte el Lineal anterior \operatorname{Linear}Peso lineal .
De abajo hacia arriba para arriba hacia abajo
Incrustaciones para instancias mejoradas E \mathcal{E}E , utilizando el decodificador visual Transformer como módulo de interacción de funciones, a través de información de incrustación de píxeles de grano finoE p E_{p}mippara refinar las incrustaciones de instancias. Antes de la entrada, las incrustaciones de instancias se pasan a través de puntuaciones de alineación intermodal S \mathcal{S}S para preservar información multimodal:
E ⊙ S = { E p 1 ∗ s 1 , E p 2 ∗ s 2 , . . . , E pn ∗ sn } \mathcal{E}\odot\mathcal{S}=\ {E_p^1*s^1,E_p^2*s^2,...,E_p^n*s^n\}mi⊙S={
mipag1∗s1 ,mipag2∗s2 ,... ,mipagnorte∗sn }Después de eso, el decodificador Transformer incorpora la instancia modeladaE ⊙ S \mathcal{E}\odot\mathcal{S}mi⊙S como consultas para generar una instancia mejorada incrustadaE ^ \hat{\mathcal{E}}mi^ y puntuación de alineación mejorada previstaS ^ \hat{\mathcal{S}}S^ . Finalmente actualice el resultado de la segmentación de la rama TD:
P ^ td = m argmax ( S ^ ) ∗ S ^ argmax ( S ^ ) \hat{P}_{td} =m^{\text{argmax}(\hat{ S} )}*\sombrero{S}^{\text{argmax}(\sombrero{S})}PAG^td _=metroargmáx (S^ )∗S^argmáx (S^ )
4.3 Integración de puntuación gaussiana (GSI)
La entrada de GSI es la salida de la rama TP P ^ td \hat P_{td}PAG^td _y la salida de la rama BU P ^ bu \hat P_{bu}PAG^b tu. GSI consta de tres pasos: predicción de distribución, muestreo de puntuaciones e integración de resultados.
Predicción de distribución
Elija la distribución gaussiana para modelar la distribución del rendimiento y predecir la media μ \mu en función de los resultados y las características de las dos ramas.μ y desviación estándarσ \sigmaσ :
μ td , σ td = dividir ( MLP ( E ^ i argmax ( S ^ ) ) μ bu , σ bu = dividir ( MLP ( GAP ( E p ⊙ P ^ bu ) ) ) \begin{reunido} \mu_{td},\sigma_{td} =\operatorname{split}(\operatorname{MLP}(\hat{E}_i^{\operatorname{argmax}(\hat{S})}) \\ \mu_ {bu},\sigma_{bu} =\text{split}(\text{MLP}(\text{GAP}(E_p\odot\hat{P}_{bu}))) \end{reunidos}metrotd _,pagtd _=dividir ( MLP (mi^iargmáx (S^ ))metrob tu,pagb tu=dividir ( MLP ( GAP ( Ep⊙PAG^b tu)) )donde MLP ( ⋅ ) \text{MLP}(\cdot)MLP ( ⋅ ) es una capa de 3 capas completamente conectada,GAP ( ⋅ ) \text{GAP}(\cdot)GAP ( ⋅ ) es la operación de agrupación promedio global,dividida ( ⋅ ) \text{split}(\cdot)split ( ⋅ ) es la operación de división de canales. Según la media y la desviación estándar previstas, la distribución de rendimiento de BUTD es:N ( μ bu , σ bu ) N(\mu_{bu},\sigma_{bu})norte ( metrob tu,pagb tu)和N ( μ td , σ td ) N(\mu_{td},\sigma_{td})norte ( metrotd _,pagtd _)。
muestreo de puntuación
Según diferentes estrategias de optimización, podemos modificar el proceso de muestreo utilizando el truco de multiparametrización: IoU td = μ td + σ td ∗ ϵ , ϵ ∼
norte ( 0 , I ) IoU bu = μ bu + σ bu ∗ ϵ , ϵ ∼ N ( 0 , I ) \begin{reunidos} \text{IoU}_{td} =\mu_{td}+\sigma_{td} *\epsilon,\ epsilon\sim\mathcal{N}(0,\mathbf{I}) \\ \text{IoU}_{bu} =\mu_{bu}+\sigma_{bu}*\epsilon,\ épsilon\sim\mathcal {N}(0,\mathbf{I}) \end{reunidos}pagarétd _=metrotd _+pagtd _∗ϵ ,ϵ∼norte ( 0 ,yo )pagaréb tu=metrob tu+pagb tu∗ϵ ,ϵ∼norte ( 0 ,yo )Entre ellos IoU td \text{IoU}_{td}pagarétd _和IoU bu \text{IoU}_{bu}pagaréb tuRepresenta las puntuaciones de confianza de las sucursales TD y BU. El modelo de predicción de distribución se optimiza utilizando la puntuación de confianza prevista y la pérdida suave de L1 de GT IoU.
Integración de resultados
argmax ( ⋅ ) \text{argmax}(\cdot)argmax ( ⋅ ) es una operación no diferenciable en la retropropagación de gradiente, por lo que en su lugar se utiliza una operación diferenciable en la fase de entrenamiento:λ = one − hot ( argmax ( S ^ ) ) + S ^ − sg ( S ^ ) \ lambda= \mathrm{uno}-\mathrm{hot}(\mathrm{argmax}(\hat{\mathcal{S}}))+\hat{\mathcal{S}}-\mathrm{sg}(\hat {\ matemático{S}})yo=uno−caliente ( argmax (S^ ))+S^−sg (S^ )
en el queλ ∈ { 0 , 1 } n \lambda\in\{0,1\}^nyo∈{
0 ,1 }n es el vector índice binario del valor máximo,uno − hot ( ⋅ ) \mathrm{one}-\mathrm{hot}(\cdot)uno−hot ( ⋅ ) es una función de codificación one-hot,sg ( ⋅ ) \mathrm{sg}(\cdot)sg ( ⋅ ) es la operación para evitar el gradiente. λ\lambdaλ se utiliza para establecer la rama TDP ^ td ′ \hat{P}_{td}^{\prime}PAG^td _′Resultado de segmentación diferenciable:
P ^ td ′ = ∑ inmj ∗ λ j ∗ sj \hat{P}_{td}^{\prime} =\sum_i^nm^j*\lambda^j*s^jPAG^td _′=i∑nortemetroj∗yoj∗sj dondennn es el número de instancias. Para obtener el resultado final de la segmentación, se utiliza la puntuación de confianza para calcular la suma de pesos de las ramas BUTD:
P ^ = ( P ^ td ′ ∗ I o U td + P ^ bu ∗ I o U bu ) / 2 \hat{ P }=(\hat{P}^{'}_{td}*\mathrm{IoU}_{td}+\hat{P}_{bu}*\mathrm{IoU}_{bu})/2PAG^=(PAG^td _′∗pagarétd _+PAG^b tu∗pagaréb tu) /2El
resultado finalP ^ \hat{P}PAG^ se utiliza para calcular la pérdida de segmentación de la máscara GT en la fase de entrenamiento y después del umbralτ \tauτ filtra para obtener una máscara binaria.
5. Experimentar
5.1 Pasos experimentales
- Conjuntos de datos: RefCOCO, RefCOCO+, RefCOCOg;
- Rama TD: MAttNet, Mask2Former (ResNet-50) como extractor de instancias;
- Sucursal BU: VLT\CRIS\LAVT;
- Indicadores de evaluación: máscara IoU;
- Optimizador: AdamW, tasa de aprendizaje: 1e-5, caída de peso: 5e-2.
- Número de iteraciones: 5000;
- GPU: V100;
- Bloque: 24;
- Umbral de binarización τ = 0,35 \tau=0,35t=0,35 (oh, este lugar es interesante, normalmente 0,5).
5.2 Análisis cuantitativo
resultados principales
Los resultados de diferentes estrategias de integración
Eficacia de las interacciones de funciones.
Misma tabla 2.
Efectividad complementaria de combinar diferentes modelos
5.2 Análisis cualitativo
6. Conclusión
Los métodos BUTD existentes no resuelven los errores de PN e IP, pero pueden complementarse entre sí para manejar mejor estos dos tipos de errores. Para aprovechar al máximo esta complementariedad, este artículo sigue la estrategia de Interacción y luego Integración para establecer el mecanismo WiCo para lograr una mejora bidireccional. Específicamente, se propone CFI para permitir que la información objetivo a priori de la rama TD y la información detallada de la rama BU interactúen entre sí, y se propone GSI para modelar la distribución del rendimiento de las dos ramas de BUTD, de modo adaptativo. integrando los resultados de las dos ramas. Los resultados experimentales muestran que WiCo puede mejorar eficazmente el rendimiento del método BUTD.
escribe en la parte de atrás
También hay una parte en el apéndice sobre el cálculo de IoU, así como una introducción más detallada a los errores de PN e IP, y se utilizan más experimentos para demostrarlo. Este artículo también tiene una idea relativamente novedosa. Define el problema desde la perspectiva de IoU. No sé cuál fue la motivación del autor para escribirlo. ¿Podría ser que hizo este experimento y descubrió el problema? Jaja, espero poder conocer al autor y preguntarle en persona algún día.
Respuesta a la pregunta original: No sé cómo se relaciona este artículo con BUTD . Resulta que combina las operaciones de BU y TD, y los dos deberían tener funciones similares.