Mi comprensión de FastFCN

FastFCN: repensar el papel de las circunvoluciones dilatadas en las redes troncales para la segmentación semántica

Convolución de expansión = convolución de expansión = convolución de agujeros

I. Introducción

1. Problema resuelto

  • Los modelos de segmentación semántica actuales suelen utilizar circunvoluciones dilatadas en la red troncal para obtener mapas de características de alta resolución, pero hacerlo aumenta la complejidad computacional y la huella de memoria .

  • Este artículo propone un nuevo módulo de sobremuestreo conjunto JPU (Joint Pyramid Upsampling) para reemplazar convoluciones dilatadas.Este método reduce efectivamente la complejidad computacional y la huella de memoria , y se puede aplicar a una variedad de modelos existentes sin pérdida o incluso mejorará la precisión final para en cierta medida.

2. Presentar

inserte la descripción de la imagen aquí
(a) La mayoría de los métodos de segmentación semántica aplican una red neuronal completamente convolucional ( FCN ) para realizar esta tarea, pero la red original de la red convolucional completa está diseñada para tareas de clasificación de imágenes, a través de reducción de muestreo progresiva (conversión de pasos y capas de agrupación ) para obtener un mapa de características rico en información semántica pero de baja resolución ;

(b) Para obtener el mapa de características final de alta resolución, algunos métodos usan el FCN original como codificador para obtener información semántica profunda y agregan un módulo decodificador para fusionar múltiples capas de mapas de características del codificador para obtener alta resolución. Figura de características, como se muestra en la Figura b, como Unet, SegNet, etc.;

(c) Además, el método DeepLab utiliza una operación de reducción de muestreo en las dos últimas capas de FCN e introduce una convolución dilatada para mantener el campo receptivo del mapa de características sin cambios, seguido de un módulo semántico multiescala para obtener el efecto final, como se muestra en la Figura c. La convolución dilatada mejora la resolución del mapa de características final y mejora en gran medida la precisión de segmentación del método de segmentación semántica del códec. Sin embargo, como se menciona en el resumen, la convolución dilatada aumenta en gran medida la complejidad computacional y el uso de la memoria , lo que limita sus problemas en tiempo real en la aplicación.

por lo tanto:

Este artículo propone un nuevo módulo JPU de sobremuestreo conjunto para resolver este problema A través de una serie de experimentos, se demuestra que la precisión del modelo no se reduce significativamente, mientras que la complejidad computacional y el uso de memoria se reducen significativamente.

  • En conjunto, las principales contribuciones de este trabajo son:

    • Un nuevo tipo de módulo JPU para reemplazar la convolución dilatada con una mayor complejidad de espacio-tiempo;

    • El tiempo de cálculo y la memoria se reducen significativamente mientras que la precisión del modelo aumenta;

    • El método logra lo mejor de su tipo tanto en el conjunto de datos Pascal Context como en el conjunto de datos ADE20K.

2. Método

1. Marco

Para obtener un mapa de características final con mayor resolución, DilatedFCN elimina las dos últimas capas de operaciones de reducción de resolución en el FCN original y agrega convoluciones dilatadas . El documento busca un método que pueda reemplazar esta operación y acelerar sin comprometer la precisión para obtener el mismo mapa de características de alta resolución que DilatedFCN.
inserte la descripción de la imagen aquí
El documento primero restaura la capa de reducción de muestreo eliminada por DilatedFCN.Como se muestra en la figura anterior, la red troncal del método en este documento es la misma que la FCN original, y las cinco operaciones de reducción de muestreo se reducen dos veces cada vez. obtenga el mapa de características del mismo tamaño que DilatedFCN, aplique el módulo JPU , que fusiona mapas de características de tres capas Conv3, 4 y 5, y obtenga el resultado de predicción final después de pasar por el módulo semántico multiescala .

2. módulo de la GPU

Sobremuestreo de pirámide conjunta

2.1 Antecedentes

Muestreo conjunto Dada una imagen objetivo de baja resolución y una imagen guía de alta resolución, el muestreo ascendente conjunto tiene como objetivo generar una imagen objetivo de alta resolución mediante la transferencia de detalles y estructuras de la imagen guía.

inserte la descripción de la imagen aquí
Figura (a) La descripción de la convolución de un agujero unidimensional (tasa de dilatación = 2) se puede dividir en los siguientes tres pasos:

  • Según la paridad del índice, la característica de entrada f_in se divide en dos grupos f_in_0 y f_in_1;
  • Procese cada función con la misma capa convolucional para obtener f_out_0 y f_out_1;
  • Las dos características generadas se intercalan y fusionan para obtener la característica de salida f_out;

Figura (b) Convolución de zancada Se propone la convolución de zancada para convertir entidades de entrada en entidades de salida con resolución espacial reducida. Esto es equivalente a los siguientes dos pasos:

  • Procese la característica de entrada f_in con convolución regular para obtener la característica intermedia f_m;
  • eliminar elementos con índices impares, produciendo f_out;
2.2 reescrito como sobremuestreo conjunto

La diferencia entre la columna vertebral de nuestro método y DilatedFCN radica en las dos últimas etapas convolucionales.

Tomando la cuarta etapa convolucional (Conv4) como ejemplo, en DilatedFCN, el mapa de características de entrada es procesado primero por una capa convolucional regular, seguida por una serie de convoluciones dilatadas (d=2);

La diferencia es que nuestro método primero procesa el mapa de características de entrada con una convolución estriada (s = 2) y luego usa varias convoluciones regulares para generar la salida.

2.3 Resolver con CNN

El documento utiliza el módulo CNN para aproximar el proceso de optimización. La
inserte la descripción de la imagen aquí
imagen de arriba muestra el módulo JPU, que aumenta la muestra de los mapas de características de diferentes tamaños (conv5, conv4, conv3) generados por la red troncal al mismo tamaño, y obtiene yc después de la fusión, y luego usa un núcleo de convolución de dilatación diferente (respectivamente 1/2/4/8) para realizar la convolución para generar el tamaño del campo receptivo del mapa de características.

3. Resultados

1. Comparación de modelos

inserte la descripción de la imagen aquí
La imagen de arriba muestra los resultados de predicción de ENCNet y ENCNet+JPU (las imágenes son del conjunto de verificación de Pascal Context y el conjunto de verificación de ADE20K respectivamente). La imagen de arriba muestra los beneficios de JPU aumentando el campo receptivo, y las montañas se pueden identificar correctamente. .

2. Resultados experimentales

inserte la descripción de la imagen aquí
El autor probó el efecto de JPU en múltiples conjuntos de datos. La imagen de arriba muestra el efecto de segmentación del modelo en el conjunto de verificación ADE20K. Se puede ver que el módulo JPU mejora significativamente el efecto de segmentación del modelo.

Referencia
1. Aprendizaje profundo (9): aprendizaje y traducción en papel de FastFCN

2. Segmentación semántica de imágenes (14)-FastFCN: Repensando la convolución dilatada en la red troncal del modelo de segmentación semántica

3. [Concurso de recurrencia del quinto artículo - Segmentación semántica] FastFCN

Supongo que te gusta

Origin blog.csdn.net/m0_58770526/article/details/126029749
Recomendado
Clasificación