Actualizar métodos antiguos PERO? WiCo: cooperación beneficiosa para todos en notas de lectura de documentos de segmentación de imágenes de referencia de abajo hacia arriba y de arriba hacia abajo

1. Resumen
2. Introducción
3. Trabajo relacionado
- Método de arriba hacia abajo
- Método ascendente
4. Método
5. Experimentar
6. Conclusión

escribir delante

La nueva semana casi ha terminado. Continúo codificando y haciendo experimentos... pero las publicaciones del blog de esta semana aún están disponibles ~ El
título de este artículo es muy atractivo y contiene un marco muy popular para VQA en 2017: Bottom-Up y Atención de arriba hacia abajo para subtítulos de imágenes y respuesta visual a preguntas . La razón es que ganó el campeonato del desafío VQA de 2017 y luego creó un seguimiento de dos años. Me pregunto qué tiene que ver este artículo con BUTD. Déjame decirte lentamente.

Discurso en papel: WiCo: Cooperación beneficiosa para todos en la segmentación de imágenes de referencia de abajo hacia arriba y de arriba hacia abajo
Dirección del código: aún no proporcionada, el resumen dice que será de código abierto
En: ICRA 2023

1. Resumen

En primer lugar, se señala que los métodos de arriba hacia abajo (TD de arriba hacia abajo) y ascendente (BU de abajo hacia arriba) son las dos formas principales de resolver el problema de la segmentación de referencia, pero ambos tienen desventajas: TD carece de alineación de estado multimodo de grano fino causará errores Polar Negativo (PN) (? ¿Qué es esto); BU causará errores Positivos Inferiores (IP) (? ¿Qué es esto) debido a la falta de información previa sobre el objetivo. Si bien estos dos métodos son complementarios para resolver errores, la combinación directa dificultará la inferencia del modelo. Por lo tanto, este artículo propone la Cooperación Ganar-Ganar (WiCo), que utiliza la complementariedad de estos dos métodos para lograr mejoras bidireccionales en la interacción e integración multimodal. Para la interacción multimodal, se propone la interacción de funciones complementarias (CFI) para proporcionar información detallada a la sucursal de BU para mejorar la información complementaria. Para la integración multimodal, se propone la integración de puntuación gaussiana (GSI) para modelar la distribución de rendimiento gaussiana de las dos ramas, y la puntuación de confianza de la distribución se utiliza para ponderar los resultados integrados. Los resultados experimentales muestran que WiCo funciona muy bien.

2. Introducción

Primero, la definición de segmentación de imágenes de referencia (RIS) se refiere a la segmentación de imágenes. En segundo lugar, los métodos actuales se pueden dividir en dos categorías: de arriba hacia abajo (top-down TD) y de abajo hacia arriba (bottom-up BU). TD primero calcula las propuestas regionales derivadas del detector de objetos previamente entrenado, luego realiza una alineación intermodal con la consulta del lenguaje de entrada y, finalmente, decodifica y recupera las propuestas regionales con la puntuación de confianza más alta como resultado de la segmentación. El método BT calcula la alineación intermodal detallada entre cada píxel y la consulta, y luego decodifica los píxeles de los objetivos relevantes.

Insertar descripción de la imagen aquí
Según la observación de la figura anterior, hay dos tipos de errores en los métodos TD y BU: Polar Negativo (PN): la predicción no tiene ninguna relación con GT; Positivo Inferior (IP): la máscara predicha no tiene un alto grado de coincidencia con GT (IoU ∈ [ $\text{IoU}\in[0.5,0.8]$ ).
Para analizar las razones de la situación anterior, se traza la distribución de IoU de TD y BU:

Insertar descripción de la imagen aquí
Divida la curva de distribución en dos partes: conjunto de muestras positivas (IoU>0,5) y conjunto de muestras negativas (IoU<0,5). Dado que la información anterior suprime las muestras de IP, la precisión del conjunto de muestras positivas de TP es mayor que la del método BT. Sin embargo, debido a la falta de alineación intermodal detallada, el método TP es más fácil de generar muestras de PN. Por lo tanto, combinando las ventajas de estos dos métodos, en teoría se pueden lograr buenos resultados. Sin embargo, la combinación directa no es posible, por lo que este artículo propone una cooperación beneficiosa para todos (WiCo) para combinar las ramas TD y BU de manera adaptativa.
WiCo consta de dos módulos: Interacción de funciones complementarias (CFI) e Integración de puntuación gaussiana (GSI). CFI está diseñado para realizar la interacción entre las dos ramas y se utiliza para compensar la falta de información detallada en la rama TD y la información previa del objetivo en la rama BU. GSI tiene como objetivo modelar la distribución de rendimiento gaussiana de las ramas TD y BU integrando los resultados de las dos ramas empleando una puntuación de confianza en la distribución. Las contribuciones de este artículo se resumen a continuación:

Ante errores de PN e IP, al analizar algunos métodos TD y BU, se encuentra que estos dos métodos son complementarios.
Se propone que WiCo aproveche al máximo las características de los métodos TD y BU para complementarse entre sí en la interacción e integración multimodal.
Una gran cantidad de experimentos muestran que el efecto es muy bueno.

3. Trabajo relacionado

Método de arriba hacia abajo

MAttNet、NMTree、CAC。

Método ascendente

Transformador de visión (ViT) y una serie de otros trabajos.

4. Método

4.1 Marco general

Insertar descripción de la imagen aquí
Como se muestra en la figura anterior, WiCo es compatible con cualquier método TD y BU. Su red consta de tres partes: sucursal TD, sucursal BU e "Interacción y luego Integración". La rama TD se utiliza para implementar métodos TD y la rama BU se utiliza para implementar métodos BU. La interacción y luego la integración es la clave de WiCo, cuyo objetivo es establecer la conexión entre las ramas TD y BU para lograr un efecto de mejora bidireccional.
Los métodos de tipo TD son esencialmente redes de coincidencia intermodales. Primero, use el detector previamente entrenado y la red de coincidencia multimodal para obtener máscaras de instancia $\mathcal{M}=\{ m^ 1\in\{0,1\}^{H\times W},m^2,...,m^n\}$ , ejemplo a caballo entre incrustación $\mathcal{E}=\{E_i^1\in\mathbb{R}^C,E_i ^2 ,...,E_i^n\}$ y puntuación de alineación intermodal $S= \{s^1,s^2,...,s^n\}$ . En general, la rama TD genera un conjunto triple de instancias $\{\mathcal{M},\mathcal{E},S\}=\{(m^1,E_i^1,s^1),(m^2,E_i^2 , s^2),...,(m^n,E_i^n,s^n)\}$ $P_{td}$ extraído de este conjunto $PAG_{td}$ Se puede expresar como:
$P_{td}=m^{\text{argmax}(\mathcal{S})}*S^{\text{argmax} (\mathcal{S})}$ donde $P_ {td}$ es el resultado logits de la segmentación. El resultado de la segmentación de dos clases es $m^{\text{argmax}}(\mathcal{S})$ .
La esencia del método BU es una red de fusión intermodal, cuyo objetivo es codificar el espacio de incrustación de píxeles intermodal de imágenes y textos $E_p\in\mathbb{R}^{C\times H \veces W}$ y decodificarlo en el resultado de la segmentación $P_{bu} \in \mathbb{R}^{H \times W}$ , expresado como:
$P_ {bu}=\sigma(\operatorname{Lineal}(E_p))$ donde $\operatorname{Lineal}$ es $1\times1$ convolución, para regresión de logits, $\sigma(\cdot)$ es la función sigmoidea, $P_{bu}$ es el mapa de probabilidad generado, al predecir $\tau$ para extraer el resultado de la segmentación ( $\tau(P_{bu}>\tau)$ ). Generalmente, la rama BU genera resultados de segmentación e incrustación de píxeles multimodales.
Interacción y luego Integración tiene como objetivo lograr una fusión complementaria de los métodos TD y BU. Las salidas de las sucursales BU y TP se utilizan como entradas a CFI para actualizar características y resultados, y los resultados actualizados se ingresan a GSI.

4.2 Interacción de funciones complementarias (CFI)

Insertar descripción de la imagen aquí
$E_p$ se ha obtenido de la rama BU $mi$ y conjunto triple de instancias $\{\mathcal{M},\mathcal{E},S\}$ , CFI tiene como objetivo mejorar la información detallada de la incrustación de píxeles y la información de destino del conjunto de tripletes de instancias.

De arriba hacia abajo para abajo hacia arriba

Para mejorar $E_p$ , asigne incrustaciones de píxeles de fila a cada instancia mejorada que incrusta $\hat{\mathcal{E}}$ En el píxel correspondiente, genere incrustaciones de píxeles mejoradas $\hat E_p$ ：
$\hat{E}_{p} ^{\{x,y\}}=\operatorname{concat}(E_{p}^{\{x,y\}};\sum_{j=1}^{n}\mathbb{1}_{ \{m^j[x,y]=1\}}\hat{E}_{i}^{j})$ en el que $E_ {p}^{\{x,y\}}$ Indica que la posición del píxel es $(x,$ Incrustación de píxeles mejorada en $y$ $)$ ${E}_{i}^{j}$ Parte $Incorporaciones de instancias mejoradas para instancias i$ . $\mathbb{1}_{\{m^j[x,y]=1\}}$ es la función índice, cuando $(x,$ en $y$ $)$ $Cuando el valor de la máscara j$ es 1, su valor es igual a 1; de lo contrario, es 0. Las incorporaciones de píxeles mejoradas luego se decodifican en nuevos resultados de BU:
$\hat{P}_{bu}=\operatorname{signoid}(\operatorname{Linear}( \ sombrero{E}_p))$ donde $\operatorname{Lineal}$ comparte el Lineal anterior $\operatorname{Linear}$ .

De abajo hacia arriba para arriba hacia abajo

Incrustaciones para instancias mejoradas $\mathcal{E}$ , utilizando el decodificador visual Transformer como módulo de interacción de funciones, a través de información de incrustación de píxeles de grano fino $E_{p}$ para refinar las incrustaciones de instancias. Antes de la entrada, las incrustaciones de instancias se pasan a través de puntuaciones de alineación intermodal $\mathcal{S}$ para preservar información multimodal:
$\mathcal{E}\odot\mathcal{S}=\ {E_p^1*s^1,E_p^2*s^2,...,E_p^n*s^n\}$ Después de eso, el decodificador Transformer incorpora la instancia modelada $\mathcal{E}\odot\mathcal{S}$ como consultas para generar una instancia mejorada incrustada $\hat{\mathcal{E}}$ y puntuación de alineación mejorada prevista $\hat{\mathcal{S}}$ . Finalmente actualice el resultado de la segmentación de la rama TD:
$\hat{P}_{td} =m^{\text{argmax}(\hat{ S} )}*\sombrero{S}^{\text{argmax}(\sombrero{S})}$

4.3 Integración de puntuación gaussiana (GSI)

La entrada de GSI es la salida de la rama TP $\hat P_{td}$ y la salida de la rama BU $\hat P_{bu}$ . GSI consta de tres pasos: predicción de distribución, muestreo de puntuaciones e integración de resultados.

Predicción de distribución

Elija la distribución gaussiana para modelar la distribución del rendimiento y predecir la media $\mu en función de los resultados y las características de las dos ramas.$ y desviación estándar $\sigma$ :
$\begin{reunido} \mu_{td},\sigma_{td} =\operatorname{split}(\operatorname{MLP}(\hat{E}_i^{\operatorname{argmax}(\hat{S})}) \\ \mu_ {bu},\sigma_{bu} =\text{split}(\text{MLP}(\text{GAP}(E_p\odot\hat{P}_{bu}))) \end{reunidos}$ donde $\text{MLP}(\cdot)$ es una capa de 3 capas completamente conectada, $\text{GAP}(\cdot)$ es la operación de agrupación promedio global, $\text{split}(\cdot)$ es la operación de división de canales. Según la media y la desviación estándar previstas, la distribución de rendimiento de BUTD es: $N(\mu_{bu},\sigma_{bu})$ 和 $N(\mu_{td},\sigma_{td})$ 。

muestreo de puntuación

Según diferentes estrategias de optimización, podemos modificar el proceso de muestreo utilizando el truco de multiparametrización: IoU td = μ td + σ td ∗ ϵ , ϵ ∼
$\begin{reunidos} \text{IoU}_{td} =\mu_{td}+\sigma_{td} *\epsilon,\ epsilon\sim\mathcal{N}(0,\mathbf{I}) \\ \text{IoU}_{bu} =\mu_{bu}+\sigma_{bu}*\epsilon,\ épsilon\sim\mathcal {N}(0,\mathbf{I}) \end{reunidos}$ Entre ellos $\text{IoU}_{td}$ 和 $\text{IoU}_{bu}$ Representa las puntuaciones de confianza de las sucursales TD y BU. El modelo de predicción de distribución se optimiza utilizando la puntuación de confianza prevista y la pérdida suave de L1 de GT IoU.

Integración de resultados

$\text{argmax}(\cdot)$ es una operación no diferenciable en la retropropagación de gradiente, por lo que en su lugar se utiliza una operación diferenciable en la fase de entrenamiento: $\ lambda= \mathrm{uno}-\mathrm{hot}(\mathrm{argmax}(\hat{\mathcal{S}}))+\hat{\mathcal{S}}-\mathrm{sg}(\hat {\ matemático{S}})$
en el que $\lambda\in\{0,1\}^n$ es el vector índice binario del valor máximo, $\mathrm{one}-\mathrm{hot}(\cdot)$ es una función de codificación one-hot, $\mathrm{sg}(\cdot)$ es la operación para evitar el gradiente. $λ\lambda$ se utiliza para establecer la rama TD $\hat{P}_{td}^{\prime}$ Resultado de segmentación diferenciable:
$\hat{P}_{td}^{\prime} =\sum_i^nm^j*\lambda^j*s^j$ donde $n$ es el número de instancias. Para obtener el resultado final de la segmentación, se utiliza la puntuación de confianza para calcular la suma de pesos de las ramas BUTD:
$\hat{ P }=(\hat{P}^{'}_{td}*\mathrm{IoU}_{td}+\hat{P}_{bu}*\mathrm{IoU}_{bu})/2$
resultado final $\hat{P}$ se utiliza para calcular la pérdida de segmentación de la máscara GT en la fase de entrenamiento y después del umbral $\tau$ filtra para obtener una máscara binaria.

5. Experimentar

5.1 Pasos experimentales

Conjuntos de datos: RefCOCO, RefCOCO+, RefCOCOg;
Rama TD: MAttNet, Mask2Former (ResNet-50) como extractor de instancias;
Sucursal BU: VLT\CRIS\LAVT;
Indicadores de evaluación: máscara IoU;
Optimizador: AdamW, tasa de aprendizaje: 1e-5, caída de peso: 5e-2.
Número de iteraciones: 5000;
GPU: V100;
Bloque: 24;
Umbral de binarización $\tau=0,35$ (oh, este lugar es interesante, normalmente 0,5).

5.2 Análisis cuantitativo

resultados principales

Insertar descripción de la imagen aquí

Los resultados de diferentes estrategias de integración

Insertar descripción de la imagen aquí

Eficacia de las interacciones de funciones.

Misma tabla 2.

Efectividad complementaria de combinar diferentes modelos

Insertar descripción de la imagen aquí

5.2 Análisis cualitativo

Insertar descripción de la imagen aquí

6. Conclusión

Los métodos BUTD existentes no resuelven los errores de PN e IP, pero pueden complementarse entre sí para manejar mejor estos dos tipos de errores. Para aprovechar al máximo esta complementariedad, este artículo sigue la estrategia de Interacción y luego Integración para establecer el mecanismo WiCo para lograr una mejora bidireccional. Específicamente, se propone CFI para permitir que la información objetivo a priori de la rama TD y la información detallada de la rama BU interactúen entre sí, y se propone GSI para modelar la distribución del rendimiento de las dos ramas de BUTD, de modo adaptativo. integrando los resultados de las dos ramas. Los resultados experimentales muestran que WiCo puede mejorar eficazmente el rendimiento del método BUTD.

escribe en la parte de atrás

También hay una parte en el apéndice sobre el cálculo de IoU, así como una introducción más detallada a los errores de PN e IP, y se utilizan más experimentos para demostrarlo. Este artículo también tiene una idea relativamente novedosa. Define el problema desde la perspectiva de IoU. No sé cuál fue la motivación del autor para escribirlo. ¿Podría ser que hizo este experimento y descubrió el problema? Jaja, espero poder conocer al autor y preguntarle en persona algún día.
Respuesta a la pregunta original: No sé cómo se relaciona este artículo con BUTD . Resulta que combina las operaciones de BU y TD, y los dos deberían tener funciones similares.