Interpretación detallada de la lengua vernácula (8) ----- CBAM: Módulo de atención de bloques convolucionales

1. Introducción a CBAM

Enlace al artículo: https://x.sci-hub.org.cn/scholar?hl=zh-TW&as_sdt=0%2C5&q=CBAM%3A+Convolutional+Block+Attention+Module&btnG=&oq=CB
Inserte la descripción de la imagen aquí
CBAM Se propuso en 2018, y desde que fue propuesto, ha sido citado miles de veces, mostrando su influencia. CBAM es un módulo de atención especialmente diseñado para redes neuronales convolucionales. La convolución tradicional solo presta atención a la información local, pero a menudo ignora los inconvenientes de la información global. Tome la convolución 3 * 3 como ejemplo, el filtro tiene 9 píxeles Punto, el valor de el píxel de destino solo se refiere a sí mismo y a los 8 puntos de píxel circundantes, lo que significa que la operación de convolución solo puede usar información local para calcular el píxel de destino, lo que puede traer alguna desviación, porque la operación de convolución solo puede ver información local, pero poca comprensión de información global.
Inserte la descripción de la imagen aquí

2. Las principales aportaciones e innovaciones de la tesis

  • (1) Se propone un módulo de atención simple y eficaz (CBAM), que puede ser ampliamente utilizado para mejorar la capacidad de caracterización de CNN. Esta es también la mayor innovación del papel.
  • (2) A través de extensos experimentos de ablación, se verifica la efectividad de nuestro módulo de atención.
  • (3) En múltiples conjuntos de datos de prueba de referencia (ImageNet-1K, MS Coco y VOC 2007), al insertar nuestro CBAM, se verifica que el rendimiento de varias redes se ha mejorado considerablemente.

Tres, estructura de red CBAM

3.1 El proceso general de CBAM

Inserte la descripción de la imagen aquí

  • Proceso rudo
    • (1) Primero, ingrese un mapa de características intermedio
    • (2) La imagen de entrada pasa a través del Módulo de atención de canal, y el Módulo de atención de canal está representado por Mc para obtener los mapas de atención de canal Mc (F) .
    • (3) El Mc (F) obtenido y la imagen de entrada se multiplican a nivel de píxel para obtener F '
    • (4) F 'continúa ingresando al Módulo de Atención Espacial, usamos Ms para denotar el Módulo de Atención Espacial, y obtenemos los mapas de Atención Espacial Ms (F') .
    • (5) La Ms (F ') obtenida se multiplica por la imagen de entrada F'a nivel de píxel para obtener F' '
      Inserte la descripción de la imagen aquí

Después de obtener una comprensión general del flujo de trabajo de CBAM, debemos ver cómo CBAM calcula internamente los mapas de atención.

3.2 Módulo de atención de canal (módulo de atención de canal)

Inserte la descripción de la imagen aquí
¿Por qué el módulo de atención del canal utiliza dos rutas de agrupación paralelas, AvgPool y MaxPool?
Esto se debe a que para la agregación de información espacial, hasta ahora, se usa comúnmente el método de combinación promedio (combinación promedio), por lo que AvgPool se usa para obtener información espacial agregada. Y MaxPooling recopila pistas importantes de características para inferir una atención de canal más refinada. También se puede entender que AvgPool obtiene información macroscópica, mientras que MaxPool obtiene información parcial. Al mismo tiempo, el uso de MaxPool hace uso de la red para obtener robustez.

  • Proceso de cálculo específico del módulo de atención del canal
    • (1) Ingrese a la función de entrada F
    • (2) Obtenga el mapa de características AvgPool (F) a través de AvgPool y obtenga el mapa de características MaxPool (F) a través de MaxPool
    • (3) Al mismo tiempo, dos rutas de agrupación comparten un MLP (estructura de perceptrón multicapa). MLP procesa AvgPool (F) y MaxPool (F) respectivamente para obtener MLP (AvgPool (F)) y MLP (MaxPool ( F))
    • (4) Luego, a través de la función de activación, se obtiene la salida final Mc (F)

Inserte la descripción de la imagen aquí

Nota: Mc (F) es un mapa de atención de canal unidimensional. Al realizar la multiplicación de nivel de píxeles con la imagen de entrada, Python utilizará automáticamente la tecnología de transmisión.

W0 y W1 aquí son los parámetros de peso de la primera y segunda capa del MLP, respectivamente.

3.3 Módulo de atención espacial (módulo de atención espacial)

Inserte la descripción de la imagen aquí

  • Proceso de cálculo específico del módulo de atención espacial
    • (1) La salida F 'obtenida por el módulo de atención de canal se ingresa en el módulo de atención espacial
    • (2) Después de la operación de convolución de MaxPool, AvgPool, 7 * 7Conv, se obtiene el mapa de características
    • (3) Finalmente, después de la función de activación sigmoidea, se obtienen los Mapas de Atención Espacial finales
      Inserte la descripción de la imagen aquí

nota: Ms (F) es un mapa de atención espacial bidimensional.
Inserte la descripción de la imagen aquí

Cuatro, experimentos

El experimento no es el foco, es el experimento de ablación ordinario, simplemente comprenda lo siguiente.

(1) Comparación de diferentes métodos de atención de canales.

Inserte la descripción de la imagen aquí
(2) Comparación de diferentes métodos de atención espacial.
Inserte la descripción de la imagen aquí
(3) Combinar métodos de canalización y atención espacial.
Inserte la descripción de la imagen aquí
(4) Resultados de clasificación en ImageNet-1K.
Inserte la descripción de la imagen aquí

referencias

Supongo que te gusta

Origin blog.csdn.net/dongjinkun/article/details/114849543
Recomendado
Clasificación