Redes de compensación de representación para segmentación semántica continua

RCIL: Redes de Compensación de Representación para Segmentación Semántica Continua (CVPR, 2022)
RCIL: Red de Compensación de Representación para Segmentación Semántica Continua

Portal

código de papel

Abstracto

En este trabajo, estudiamos el problema de la segmentación semántica continua, donde las redes neuronales profundas necesitan incorporar nuevas clases continuamente sin olvidos catastróficos. Proponemos utilizar un mecanismo de reparametrización estructural, denominado módulo de compensación de representación (RC), para desacoplar el aprendizaje de representación del conocimiento antiguo y el nuevo. El módulo RC consta de dos ramas que evolucionan dinámicamente, una de las cuales está congelada y la otra es entrenable.
Además, diseñamos una estrategia de extracción de conocimiento de cubo de conjunto en dimensiones espaciales y de canal, lo que mejora aún más la plasticidad y la estabilidad del modelo. . Realizamos experimentos en dos escenarios desafiantes de segmentación semántica continua, segmentación de clase continua y segmentación de dominio continuo. Sin ninguna sobrecarga computacional ni parámetros adicionales durante la inferencia, nuestro método supera al más avanzado. Código: https://github.com/zhangchbin/RCIL

1. Introducción

Las redes neuronales profundas basadas en datos [65, 73, 98, 109] han logrado muchos hitos en la segmentación semántica. Sin embargo, estos modelos totalmente supervisados ​​[17, 24, 95] solo pueden manejar un número fijo de clases. En aplicaciones prácticas, sería mejor si el modelo pudiera extenderse dinámicamente para reconocer nuevas clases. Una solución simple es reconstruir el conjunto de entrenamiento y volver a entrenar el modelo usando todos los datos disponibles, llamado entrenamiento conjunto. Sin embargo, teniendo en cuenta el costo de volver a entrenar el modelo, el desarrollo sostenible del algoritmo y las preocupaciones de privacidad, es particularmente crítico actualizar el modelo solo con datos actuales para lograr el objetivo de identificar clases nuevas y antiguas. Sin embargo, el ajuste ingenuo de un modelo entrenado con nuevos datos puede conducir a un olvido catastrófico [49]. Por lo tanto, en este trabajo, buscamos el aprendizaje continuo, que puede permitir que el modelo reconozca nuevas categorías sin olvidos catastróficos.En el contexto de
segmentación semántica continua [9, 28, 63, 64], dado el anterior El modelo entrenado y el nuevo clase de los datos de entrenamiento, el modelo debe distinguir entre todas las clases vistas, incluida la clase anterior (clase antigua) y la clase nueva. Sin embargo, para ahorrar costos de etiquetado, los datos de entrenamiento nuevos generalmente solo se etiquetan para las clases nuevas, dejando las clases antiguas como fondo. Es muy desafiante aprender directamente nuevos datos sin ningún diseño adicional, lo que puede conducir fácilmente a un olvido catastrófico [49].

inserte la descripción de la imagen aquí
Figura 1. Ilustre nuestro marco de entrenamiento de segmentación semántica continua propuesto para evitar el olvido catastrófico. Dos mecanismos están diseñados en nuestro método, módulo de compensación de representación (RC) y destilación cúbica convergente (PCD).

Como se señaló en [29, 49, 52], ajustar el modelo con datos nuevos puede provocar un olvido catastrófico, es decir, el modelo se ajusta rápidamente a la distribución de datos de la nueva clase y pierde su capacidad discriminatoria para la clase anterior. Algunos métodos [44, 49, 57, 67, 68, 81, 97] regularizan los parámetros del modelo para mejorar su estabilidad. Sin embargo, todos los parámetros se actualizan en los datos de entrenamiento de la nueva clase. Sin embargo, esto es un desafío porque los conocimientos nuevos y antiguos están entrelazados en los parámetros del modelo, lo que dificulta mantener el frágil equilibrio entre aprender nuevos conocimientos y mantener los antiguos. Algunos otros métodos [46, 58, 76, 77, 83, 93] aumentan la capacidad del modelo para equilibrar mejor la estabilidad y la plasticidad, pero a costa de aumentar la memoria de la red.

En este estudio, proponemos un módulo de compensación de representación fácil de usar que tiene como objetivo memorizar conocimientos antiguos al tiempo que permite capacidad adicional para nuevos conocimientos. Inspirándonos en la reparametrización estructural [25, 26], nos referimos a la capa convolucional con dos ramas paralelas en la red durante el entrenamiento como el módulo de compensación de representación. Como se muestra en la Figura 1, durante el entrenamiento, las salidas de dos circunvoluciones paralelas se fusionan antes de una capa de activación no lineal. Al comienzo de cada paso de aprendizaje sucesivo, combinamos de manera equivalente los parámetros de dos circunvoluciones paralelas en una convolución, que se congelará para preservar el conocimiento antiguo. La otra rama es entrenable, que hereda parámetros de la rama correspondiente en el paso anterior. La estrategia de compensación de representación es usar ramas congeladas para memorizar conocimiento antiguo, mientras que usar ramas entrenables para permitir capacidad adicional para memorizar nuevo conocimiento Es importante destacar que este módulo no trae parámetros adicionales ni costos computacionales durante la inferencia.

Para mitigar aún más el olvido catastrófico, introducimos un mecanismo de destilación de conocimiento71 entre capas intermedias , denominado destilación Pooled Cube. Puede suprimir los efectos negativos de los errores y el ruido en los mapas de características locales. Las principales contribuciones de este trabajo son:

• Proponemos un módulo de compensación de representación con dos ramas durante el entrenamiento, una para retener el conocimiento antiguo y otra para adaptarse a los nuevos datos. Durante la inferencia, siempre mantiene la misma sobrecarga computacional y de memoria a medida que aumenta la cantidad de tareas.

• Llevamos a cabo experimentos sobre segmentación continua de clases y segmentación continua de dominios por separado.Los resultados experimentales muestran que el método supera el rendimiento del estado del arte en tres conjuntos de datos diferentes.

2. Trabajo relacionado

Segmentación semántica Segmentación semántica.
Los primeros enfoques se centraron en modelar las relaciones contextuales [3, 50, 104]. Los métodos actuales se centran más en la agregación de características de múltiples escalas [4, 35, 53, 54, 60, 66, 69, 82]. Algunos métodos [15, 23, 33, 38, 39, 51, 56], inspirados en la no localidad [86], utilizan mecanismos de atención para establecer conexiones entre contextos de imágenes. Otro estudio [16, 62, 96] tiene como objetivo fusionar características de diferentes campos receptivos. Recientemente, las arquitecturas de Transformer [8, 27, 87, 99, 105, 110] se han desempeñado de manera destacada en la segmentación semántica, centrándose en la fusión de características de múltiples escalas [13, 85, 91, 102] y la agregación de características contextuales [59, 80].

Aprendizaje Continuo
El Aprendizaje Continuo se enfoca en mitigar el olvido catastrófico mientras se discrimina contra las clases recién aprendidas. Para resolver este problema, muchos estudios [5, 6, 12, 48, 78] proponen revisar el conocimiento a través de un mecanismo de ensayo. El conocimiento se puede almacenar en varios tipos, como ejemplos [5, 7, 10, 12, 74, 84], prototipos [36, 107, 108], redes generativas [61], etc. Si bien estos enfoques basados ​​en ensayos generalmente logran un alto rendimiento, requieren almacenamiento y permisos de almacenamiento. En escenarios más desafiantes sin ninguna repetición, muchos métodos exploran la regularización para preservar el conocimiento antiguo, incluida la destilación del conocimiento [11, 19, 22, 29, 52, 70, 75], el entrenamiento de confrontación [30, 90], la regularización vainilla [44, 49 , 57, 67, 68, 81, 97, 100], etc. Otros se centran en la capacidad de las redes neuronales. Una de las líneas de investigación [46, 58, 76, 77, 83, 93] es extender la arquitectura de red mientras se aprenden nuevos conocimientos. Otra línea de investigación [1, 45] explora la regularización dispersa de los parámetros de la red, con el objetivo de activar la menor cantidad posible de neuronas en cada tarea. Esta regularización de escasez reduce la redundancia en la red al tiempo que limita la capacidad de aprendizaje de cada tarea. Algunos trabajos proponen aprender mejores representaciones combinando el aprendizaje autosupervisado de extractores de características [10, 88] y abordando el desequilibrio de clases [40, 47, 55, 101, 103].

Segmentación Semántica Continua Segmentación semántica continua.
La segmentación semántica continua sigue siendo un problema abierto, centrándose principalmente en el olvido catastrófico en la segmentación semántica [49]. La segmentación continua de clases es un escenario clásico en este dominio, y varios trabajos previos han logrado un gran progreso: [42,94] exploró métodos basados ​​en ensayos para revisar conocimientos antiguos; clases para resolver la ambigüedad de las clases de fondo; PLOP [28] aplica un estrategia de destilación de conocimiento a capas intermedias; SDR [64] utiliza la comparación de prototipos para imponer restricciones de coherencia en las representaciones del espacio latente. Mientras que otros [32, 79, 97] explotan la información de alta dimensión, el autoentrenamiento y la adaptación del modelo para superar este problema.

Además, la segmentación continua de dominios es un nuevo escenario propuesto por PLOP [28], que tiene como objetivo integrar nuevos dominios en lugar de nuevas clases. A diferencia de los métodos anteriores, nos enfocamos en expandir dinámicamente la red y desacoplar el aprendizaje de representación de clases antiguas y nuevas.

3. Método

3.1. Preliminares

Sea D = {xi, yi} el conjunto de entrenamiento, donde xi es la imagen de entrada y yi es la verdad básica segmentada correspondiente. En el desafiante escenario de aprendizaje continuo, nos referimos a cada entrenamiento en el conjunto de datos Dt recién agregado como un paso. En el paso t, un modelo ft−1 con parámetros dados θt−1 se entrena en las clases {D0, D1…Dt−1} y {C0, C1,…continuous Ct−1}, cuando el modelo encuentra datos recién agregados Al integrar Dt y nuevas clases Ct adicionales, se propone aprender la discriminación de clases Pt n=0 Cn. Cuando se entrena en Dt, los datos de entrenamiento de las clases antiguas no son accesibles. Además, para ahorrar el costo de capacitación, solo las nuevas clases de Ct se incluyen en la verdad del terreno en Dt, mientras que las clases antiguas se marcan como fondo. Por lo tanto, existe un problema apremiante de olvido catastrófico. La verificación de la eficacia de diferentes métodos a menudo requiere múltiples aprendizajes consecutivos, por ejemplo, N pasos.

inserte la descripción de la imagen aquí
Figura 2. Describa nuestro mecanismo de compensación representativo. Modificamos la convolución 3 × 3 en dos convoluciones paralelas. Las características de ambas ramas se agregan antes de la capa de activación. Por lo tanto, al comienzo del paso t, las dos ramas paralelas entrenadas en el paso t−1 se pueden combinar en una capa convolucional equivalente, y la capa convolucional se puede congelar como una rama en el paso t. Inicialice otra rama en el paso t desde la rama correspondiente al paso t−1. Demostramos la operación de fusión en el lado derecho de la figura.

3.2 Redes de Compensación de Representación 3.2 Redes de Compensación de Representación

Como se muestra en la Figura 2, para desvincular la retención de conocimientos antiguos y el aprendizaje de nuevos conocimientos, introducimos un mecanismo de compensación de representación. Una convolución de 3 × 3 seguida de una normalización y una capa de activación no lineal es un bloque de construcción común en la mayoría de las redes neuronales profundas. Modificamos esta arquitectura agregando una convolución paralela de 3 × 3 seguida de una capa de normalización para cada componente. Las salidas de dos capas de normalización convolucional paralelas se fusionan y luego se corrigen con una capa de activación no lineal. Formalmente, la arquitectura consta de dos capas convolucionales paralelas con pesos {W 0, W 1} y sesgos {b0, b1}, seguidas de dos capas de normalización independientes, respectivamente. Sea Norm0 ={µ0, σ0, γ0, β0}, Norm1 ={µ1, σ1, γ1, β1} la media, la varianza, el peso y el sesgo de las capas de normalización Norm0 y Norm1. Por lo tanto, el cálculo de la entrada x antes de la función de activación no lineal como inserte la descripción de la imagen aquí
esta ecuación muestra que dos ramas paralelas se pueden expresar de manera equivalente como un peso ˆW y un sesgo ˆb, también mostramos esta transformación en el lado derecho de la Fig. 2, por lo tanto, Para esta estructura mejorada, podemos combinar de manera equivalente los parámetros de las dos ramas en una convolución.

Más precisamente, en el paso 0, todos los parámetros se pueden entrenar para entrenar un modelo que pueda distinguir las clases C0. En los pasos de aprendizaje posteriores, el modelo segmentará las clases recién agregadas. Durante estos sucesivos pasos de aprendizaje, la red se irá inicializando con los parámetros entrenados en el paso anterior, lo que facilita la transferencia de conocimiento [9]

Al comienzo del paso t, para evitar que el modelo olvide el conocimiento antiguo, fusionamos las ramas paralelas entrenadas en el paso t−1 en una capa convolucional. Los parámetros en esta rama fusionada se congelan para memorizar conocimientos antiguos, como se muestra en la Figura 2. La otra rama se puede entrenar para aprender nuevos conocimientos, inicializados con la rama correspondiente en los pasos anteriores. Además, diseñamos una estrategia drop-path, que se aplica a la agregación de las salidas x1 y x2 de las dos ramas. Durante el entrenamiento, la salida antes de la activación no lineal se indica como inserte la descripción de la imagen aquí
donde, η es un vector de peso de canal aleatorio, muestreado uniformemente del conjunto {0,0.5,1}. Durante la inferencia, los elementos del vector η se establecen en 0,5. Los resultados experimentales muestran que esta estrategia tiene un cierto efecto de mejora.

Análisis de la Efectividad del Módulo RC El análisis de la efectividad del módulo rc.
Como se muestra en la Figura 3, la estructura convolucional paralela se puede ver como una colección implícita de múltiples subredes [37, 41]

Los parámetros de algunas capas en estas subredes se heredan del modelo maestro fusionado (entrenado en el paso anterior) y se congelan. Durante el entrenamiento, similar a [34, 92], estas capas de maestros congeladas regularizarán los parámetros entrenables, alentando a las capas entrenables a comportarse como el modelo de maestro. Como se muestra en la Fig. 3(a), en el caso especial donde solo se puede entrenar una capa en la subred, durante el entrenamiento, esta capa considerará tanto el ajuste de la representación de la capa congelada como el aprendizaje de nuevos conocimientos. Por lo tanto, este mecanismo puede aliviar el catastrófico olvido de la capa entrenable. Generalizamos aún más este efecto a subredes generales como la Fig. 3 (b), que también alentará a las capas entrenables a adaptar las representaciones de las capas congeladas. Además, todas las subredes están integradas para integrar el conocimiento de diferentes subredes en una sola red, como se muestra en la Figura 3©.
inserte la descripción de la imagen aquí
imagen 3. Ilustración de nuestra red de compensación representativa propuesta. Nuestra arquitectura© puede verse como una integración implícita de numerosas subredes (a), (b), etc. El azul indica capas congeladas heredadas del modelo maestro fusionado y el verde indica capas entrenables. El gris indica capas ignoradas en la subred.

3.3 Destilación de conocimiento de cubo agrupado 3.3 Destilación de conocimiento de cubo agrupado

Para aliviar aún más el olvido del conocimiento antiguo, siguiendo PLOP [28], también exploramos la extracción de conocimiento entre capas intermedias. Como se muestra en la Fig. 4(a), PLOP [28] introduce el strip pooling [39] para integrar las características del modelo de maestro y el modelo actual por separado. La operación de agrupación juega un papel clave para mantener la distinción de las clases antiguas y permitir que se aprendan nuevas clases. En nuestro enfoque, diseñamos una destilación de conocimiento basada en un conjunto promedio a lo largo de la dimensión espacial. Además, también usamos la agrupación promedio de dimensión de canal en cada ubicación para mantener sus respectivas fortalezas de activación. En general, como se muestra en la Figura 4 (b), usamos agrupación promedio tanto en dimensiones espaciales como de canal.

Formalmente, seleccionamos todas las etapas L de la última capa de activación no lineal antes de los mapas de características {X1, X2, ..., XL}, incluidas todas las etapas en el decodificador y la red troncal. Para las características del modelo de maestro y el modelo de estudiante, primero calculamos el cuadrado del valor de cada píxel para preservar la información negativa. Luego, se realiza un agrupamiento promedio de múltiples escalas en las dimensiones espacial y de canal, respectivamente. El modelo del maestro ˆXlT y el modelo del estudiante ˆXlS se pueden calcular mediante una operación de agrupación promedio ∆: inserte la descripción de la imagen aquí
donde M denota el núcleo de agrupación promedio Mth y l denota la l-ésima etapa. Para la agrupación promedio en dimensiones espaciales, usamos ventanas multiescala para modelar la relación entre píxeles en regiones locales. El tamaño del núcleo M es M = {4, 8, 12, 16, 20, 24} y el paso se establece en 1. Para la agrupación promedio sobre la dimensión del canal, simplemente establecemos el tamaño de la ventana en 3. Entonces, la función de pérdida de destilación de conocimiento espacial Lskd de la capa intermedia es

inserte la descripción de la imagen aquí
Donde H, W y D representan la altura, el ancho y el número de canales, respectivamente. La misma ecuación se puede aplicar a la dimensión del canal de M = {3}, formando Lckd. En general, el objetivo de destilación se puede expresar como:
inserte la descripción de la imagen aquí
Agrupación promedio frente a agrupación en franjas
Gracias a sus potentes funciones de agregación y su capacidad para modelar dependencias a largo plazo, la agrupación en franjas desempeña un papel muy importante en muchos modelos de segmentación semántica totalmente supervisados ​​[39, 43]. El rendimiento de la segmentación continua sigue siendo mucho peor que el de la segmentación completamente supervisada. En el caso de la segmentación continua, los resultados de la predicción tienden a tener más ruido o error que la segmentación completamente supervisada. Por lo tanto, durante la destilación, cuando se usa la combinación de franjas para agregar características, esta dependencia de largo alcance puede introducir algún ruido irrelevante en las intersecciones, lo que lleva a la difusión del ruido. Esto conducirá a un mayor deterioro de los resultados de predicción del modelo de estudiante. En nuestro método, usamos la agrupación promedio en las regiones locales para suprimir los efectos negativos del ruido. Específicamente, dado que la semántica de las regiones locales suele ser similar, el punto clave actual puede encontrar más vecinos para respaldar su decisión agregando las características de las regiones locales. Por lo tanto, el punto clave actual se ve menos afectado negativamente por el ruido del área local.

Como se muestra en la parte superior de la Fig. 5(b), la combinación de tiras introduce ruido o error en la intersección del modelo del maestro. Durante la destilación, el ruido se propaga aún más en el modelo del estudiante, lo que hace que el ruido sea difuso. Para la agrupación promedio en la parte inferior de la Fig. 5, el punto clave tendrá en cuenta muchos vecinos cercanos, lo que dará como resultado una característica agregada que es más resistente al ruido. .
inserte la descripción de la imagen aquí
Figura 5. El efecto de la agrupación en tiras (fila superior) utilizada en PLOP [28] y la agrupación promedio (fila inferior) en nuestro método.

4. Experimentos

Supongo que te gusta

Origin blog.csdn.net/m0_37690430/article/details/125972990
Recomendado
Clasificación