2022 CVPR: sobre la integración de la autoatención y la convolución

tesis
github
gitee

1. Resumen

  • Tanto las operaciones de convolución como los mecanismos de atención se pueden usar para aprender representaciones, y existe una relación fundamental entre los dos. En cierto sentido, la mayoría de los cálculos para ambos paradigmas se realizan con las mismas operaciones. Tradicional k × k \begin{array}{c} k\times k \end{array}k×kLa convolución se puede descomponer en k 2 \begin{array}{c} k^{2} \end{array}k2Una operación de convolución, desplazamiento y suma 1×1. Luego, interpretamos la proyección de consultas, claves y valores en el módulo de autoatención como múltiples circunvoluciones 1×1, y luego calculamos agregaciones de pesos y valores de atención. El modelo híbrido disfruta de los beneficios tanto de la autoatención como de la convolución (ACmix), a la vez que tiene una sobrecarga computacional mínima en comparación con sus contrapartes puramente convolucionales o de autoatención.

2. Introducción

  • La operación de convolución usa funciones de agregación en campos receptivos locales de acuerdo con los pesos de los filtros de convolución, que se comparten en todo el mapa de características. Esta propiedad introduce un sesgo inductivo crítico en el procesamiento de imágenes. El módulo de atención aplica una operación de promedio ponderado basada en el contexto de las características de entrada, donde los pesos de atención se calculan dinámicamente mediante la función de similitud entre pares de píxeles relacionados. Esta flexibilidad permite que el módulo de atención se centre de manera adaptativa en diferentes regiones y capture características más informativas.
  • Específicamente, primero proyectamos los mapas de características de entrada con convoluciones de 1×1 y obtenemos un rico conjunto de características intermedias. Luego, las características intermedias se reutilizan y agregan de acuerdo con diferentes paradigmas, es decir, por autoatención y convolución, respectivamente. De esta manera, ACmix disfruta de los beneficios de dos módulos y evita efectivamente el costo de costosas operaciones de proyección dos veces.

3. Método

3.1 La conexión entre la autoatención y la convolución

  • Existe una estrecha conexión entre la autoatención y la descomposición de los módulos convolucionales. La primera etapa es un módulo de aprendizaje de características, donde los dos métodos comparten la misma operación al realizar convoluciones 1×1 para proyectar características en un espacio más profundo. Por otro lado, la segunda etapa corresponde al proceso de agregación de características a pesar de la diferencia en su paradigma de aprendizaje.
  • Desde una perspectiva computacional, la convolución 1×1 realizada en la etapa uno de los módulos de convolución y autoatención requiere FLOP teóricos y una complejidad cuadrática de parámetros relacionados con el tamaño de la dimensión del canal C. Por el contrario, en la segunda etapa, ambos módulos son livianos o requieren poca computación.
  • Por lo tanto, el análisis anterior muestra que (1) la convolución y la autoatención en realidad comparten la misma operación de proyectar mapas de características de entrada a través de la convolución 1×1, que también es la principal sobrecarga computacional de los dos módulos. (2) Aunque crucial para capturar características semánticas, la operación de agregación en la segunda etapa es liviana y no genera parámetros de aprendizaje adicionales.

3.2 Integración de autoatención y convolución

ACmix

  • ACmix consta de dos etapas:
      en la primera etapa, las características de entrada se proyectan a través de tres circunvoluciones de 1×1 y se remodelan en N bloques respectivamente, lo que da como resultado un conjunto de características intermedias de mapas de características de 3×N.
      En la segunda etapa, hay dos caminos de autoatención y convolución. Para la ruta de autoatención, los tres mapas de características correspondientes se utilizan como consulta, clave y valor, siguiendo el módulo tradicional de autoatención de varios cabezales.
      Para una ruta convolucional con un tamaño de kernel de k, se utiliza una capa ligera completamente conectada y se genera un mapa de características k², mientras se realizan operaciones de cambio y agregación.
      Finalmente, las salidas de las dos rutas se suman juntas, con la fuerza controlada por dos escalares aprendibles:
    F out = α F att + β F conv \begin{array}{c} F_{out} = \alpha F_{att} + \beta F_{conversión} \end{matriz}Ffuera de ti=una F

Supongo que te gusta

Origin blog.csdn.net/u013308709/article/details/129289169
Recomendado
Clasificación