PAN (Pyramid Attention Network para segmentación semántica) paper解读

Pyramid Attention Network para la segmentación semántica utiliza PAN para la segmentación semántica, y la estructura de la red es similar a codificador-decodificador, en forma de u.

fondo

La estructura del codificador-decodificador,
en el proceso de codificación de características de alta dimensión, la información de textura original sufrirá la pérdida de resolución espacial, como FCN.
PSPNet y DeepLab utilizan pirámide espacial y convolución de agujeros (ASPP) para solucionar este problema.
Sin embargo, es fácil que ASPP provoque artefactos en la cuadrícula y la pirámide espacial perderá información de posicionamiento a nivel de píxel.
El autor se inspira en SENet y Parsenet para extraer información de atención a nivel de píxel de características de alta dimensión.

PAN consta de dos estructuras, FPA (Feature Pyramid Attention) y GAU (Global Attention Upsample).
FPA es similar a la conexión entre codificador y decodificador. Su función es aumentar el campo receptivo y distinguir objetivos más pequeños.
GAU es similar al muestreo ascendente del decodificador detrás del FCN, y también puede extraer información de atención de características de alta dimensión, y la cantidad de cálculo no es muy grande.

Trabajo relacionado

La estructura PAN es similar a codificador-decodificador, atención y también se considera la estructura de pirámide espacial en PSPNet,
por lo que un trabajo similar incluye codificador-decodificador, atención de contexto global y pirámide espacial.

codificador-decodificador: No hay mucho que decir sobre la estructura, la característica principal es conectar las características de las etapas adyacentes, pero no tiene en cuenta la información de características globales.
Atención de contexto global: con origen en ParseNet, se aplica una rama global para aumentar el campo receptivo y fortalecer la consistencia de la clasificación por píxeles.
DFN usa una rama de agrupación global en la parte superior de la forma de U para convertir la forma de U en forma de V. El autor de este artículo también usa la
agrupación promedio global para agregar a la rama del decodificador para seleccionar características distintivas.
Pirámide Espacial: Se utiliza para extraer información multiescala. La agrupación de pirámide espacial es adecuada para objetivos con diferentes escalas. Las series PSPNet y DeepLab amplían la agrupación global a la agrupación de pirámide espacial y ASPP. Aunque el efecto es bueno, el cálculo es muy pesado.

CACEROLA

PAN incluye FPA y GAU. El módulo es como se muestra en la siguiente figura. La red troncal es ResNet-101.
FPA es equivalente al punto de inflexión del codificador decodificador.
inserte la descripción de la imagen aquí

AFP

El propósito es proporcionar atención por píxeles para las funciones de alto nivel de CNN.
En la segmentación semántica reciente, la estructura piramidal puede extraer funciones de diferentes escalas y aumentar el campo receptivo, pero esta estructura carece de información global (falta de selección de canales). mecanismo) ).
Al mismo tiempo, si se selecciona el vector de atención del canal, no se pueden extraer las características multiescala y falta la información de píxeles.

El autor combina la atención en píxeles con características de múltiples escalas.
Por lo tanto, este módulo combina las características de tres escalas diferentes con una estructura en forma de U. Para extraer características de diferentes escalas, la pirámide utiliza capas convolucionales de 3x3, 5x5 y 7x7. Debido a que se utilizan características de alta dimensión, los mapas de características de alta dimensión suelen ser relativamente pequeños, por lo que un kernel de convolución más grande no genera muchos cálculos.

Luego, después de que la salida de características de entrada de CNN pasa a través de una convolución de 1x1, se puede multiplicar en píxeles con la salida de características de FPA. Desempeña el papel de atención inteligente de píxeles y combina múltiples escalas.

Se agregó la rama global mencionada anteriormente, se utilizó la agrupación promedio global y se agregó a la función de salida.
La estructura final obtenida es la siguiente,
inserte la descripción de la imagen aquí

El autor mencionó que la reducción de canales se realiza antes de la multiplicación, por lo que no consume muchos cálculos como PSPNet y ASPP.

GAU

Esta pieza pertenece al decodificador. El muestreo ascendente de interpolación bilineal se utiliza en PSPNet y Deeplab, que puede considerarse como un decodificador simple. La red general de
codificador-decodificador considera principalmente las características de diferentes escalas y restaura gradualmente el límite del objetivo en el descifrador. Este tipo de red es generalmente muy complejo y requiere una gran cantidad de cálculo.

Estudios recientes han demostrado que combinar CNN y pirámide puede mejorar el efecto, y también se fortalecerá la información de categoría.
El autor considera el uso de características de alta dimensión más información de categoría auxiliar para proporcionar pesos para la información de baja dimensión para seleccionar detalles precisos.

GAU utiliza la agrupación promedio global para proporcionar información global y proporcionar pesos para características de baja dimensión para seleccionar detalles de posicionamiento de categoría.
En detalle, la convolución 3x3 se realiza en características de baja dimensión para reducir el canal (reducir la cantidad de cálculo).
Las características de alta dimensión se pasan a través de la capa de agrupación promedio global, y luego se usa una convolución 1x1 + BN + ReLU para obtener el vector de peso.Este peso se multiplica por la salida de baja dimensión, y el resultado de la multiplicación se suma a las
características originales de alta dimensión.
inserte la descripción de la imagen aquí

estructura de red

La estructura de la red está pegada en la parte PAN, vamos a publicarla de nuevo.
inserte la descripción de la imagen aquí
Detalles:
backbone: ResNet-101, preentrenado en ImageNet,
extrae mapas de características con convolución dilatada rate=2 en el bloque res5b, por lo que el tamaño de los mapas de características es el imagen de entrada 1/16 de eso (similar a DeepLabv3+).
Reemplace la convolución 7x7 en ResNet-101 con tres 3x3conv (similar a PSPNet)

Detalles del entrenamiento:
inserte la descripción de la imagen aquí

La versión extendida de PASCAL se usa para el entrenamiento, y el método de uso del conjunto de datos de referencia
github es el siguiente:
versión de pytorch segmentación de destino
versión de pytorch segmentación semántica

Supongo que te gusta

Origin blog.csdn.net/level_code/article/details/130821292
Recomendado
Clasificación