[Lectura en papel] Segmentación semántica semisupervisada a través de una red de doble rama fuerte-débil

[Dirección en papel] [Código] [ECCV 20]

Abstracto

Aunque los trabajos existentes han explorado varias técnicas para avanzar en la segmentación semántica débilmente supervisada, todavía hay una gran brecha en comparación con los métodos supervisados. En las aplicaciones del mundo real, además de una gran cantidad de datos supervisados débilmente, generalmente hay disponibles algunas anotaciones a nivel de píxel, en las que el seguimiento semisupervisado se convierte en una forma prometedora de segmentación semántica. Los enfoques actuales simplemente agrupan estos dos conjuntos diferentes de anotaciones para entrenar una red de segmentación. Sin embargo, encontramos que tal enfoque es problemático, logrando resultados aún peores que simplemente usar etiquetas fuertes, lo que sugiere un mal uso de etiquetas débiles. Para aprovechar al máximo el potencial de las etiquetas débiles, proponemos un procesamiento separado de las anotaciones fuertes y débiles a través de una red de doble rama fuerte-débil, que distingue una gran cantidad de supervisión débil imprecisa de la supervisión fuerte. Diseñamos un componente de red compartida para explotar la discriminación conjunta de anotaciones fuertes y débiles; mientras tanto, las ramas duales propuestas manejan el aprendizaje supervisado total y débilmente por separado y eliminan efectivamente su interferencia mutua. Esta estructura simple requiere solo una pequeña cantidad de costo computacional adicional durante el entrenamiento, pero produce mejoras significativas con respecto a los métodos anteriores. Los experimentos en dos conjuntos de datos de referencia estándar demuestran la eficacia del método propuesto.

Introducción

Aunque el título de este artículo solo tiene la palabra Semi, lo que hace es una segmentación semisupervisada y débilmente supervisada, que utiliza una pequeña cantidad de datos etiquetados completos y una gran cantidad de datos débilmente etiquetados para entrenar el modelo.

El autor descubrió por primera vez el hecho de que simplemente mezclar etiquetas fuertes y débiles juntas para el entrenamiento no es tan efectivo como usar solo etiquetas débiles. La comparación correspondiente es la siguiente: se puede encontrar que el rendimiento de Strong 1.4k + Weak 9k es incluso
inserte la descripción de la imagen aquí
ligeramente menor que el de Weak 10k; este fenómeno se puede entender mejor desde dos perspectivas:

Sobre la base de Weak 9k, el efecto de agregar etiquetas de alta calidad de 1.4k es solo un poco más alto que la calidad de agregar etiquetas débiles de 1k, sin provocar ningún cambio esencial
Sobre la base de Strong 1.4k, agregar etiquetas débiles de 9k incluso provocará una fuerte caída en el rendimiento

Esta situación se debe a las siguientes dos razones:

La muestra no está balanceada. Es decir, una gran cantidad de etiquetas débiles en realidad "contaminan" una pequeña cantidad de etiquetas fuertes, lo que hace que la red se ajuste en exceso a las etiquetas débiles.
El seguimiento es inconsistente. Dado que la red sobreajusta las etiquetas débiles, la calidad de los resultados previstos también es comparable a la mala calidad de las etiquetas débiles.

La solución correspondiente en este documento también es muy simple, utilizando la arquitectura de decodificador dual para dividir y procesar explícitamente las dos señales de supervisión. Una de las razones por las que el título se llama Dual Branch parece ser que aún se comparten varias capas entre los dos decodificadores.

Red

inserte la descripción de la imagen aquí
El marco de este artículo se muestra arriba. Entre ellos, backbone | h(x) corresponde a la parte de extracción de características de la red de segmentación, como VGG16; neck corresponde a la parte de convolución compartida de los dos decodificadores, incluidas n capas convolucionales; el resto son volúmenes no compartidos de la red de segmentación. dos Decodificadores Partes convolucionales, cada una de las cuales contiene (3-n) capas convolucionales. Las estructuras de los decodificadores fuertes y débiles son exactamente las mismas, y la diferencia es solo diferente de la señal de supervisión.

Tenga en cuenta que el hiperparámetro n anterior varía de 0 a 3, es decir, los dos decodificadores no pueden compartir ninguna información (n=0) o degenerar directamente en una red de una sola rama (n=3).

En cuanto a las funciones de pérdida de estas dos ramas, ambas utilizan la pérdida de entropía cruzada estándar para la supervisión sin ninguna ponderación, de la siguiente manera: L data = $\mathcal{L} _{\text {datos}}=\mathcal{L}_{ce}\left(s^s, m^s\right)+\mathcal{L}_{ce}\left(s ^w, m^ w\derecho)$

Entrenamiento y Pruebas

Cada lote de entrada de Entrenamiento contiene la mitad de las muestras fuertemente etiquetadas y la mitad de las muestras débilmente etiquetadas. Aquí se puede ver que dado que cada lote se divide por la mitad en lugar de según la proporción del conjunto de datos (es decir, las muestras fuertes y débiles de cada lote son 1:9), la sobremuestra disfrazada se lleva a cabo en el nivel de lote.

Luego, cada lote se pasará a dos ramas fuertes y débiles diferentes; para la rama fuerte, solo se calcula la pérdida de las muestras fuertemente marcadas en el lote y se realiza la retropropagación del gradiente; para la rama débil, solo la pérdida de las Se calculan las muestras débilmente etiquetadas en el lote y se realiza una retropropagación de gradiente.

Prueba Dado que el papel de la rama débil es ayudar al aprendizaje de la parte compartida (cuello) de las ramas fuerte y débil en la fase de entrenamiento, solo la rama fuerte debe conservarse en la fase de prueba.