ICCV 2023 | Superresolución de imágenes utilizando transformadores de doble agregación

Introducción
Este artículo propone un modelo de transformador, DAT (Dual Aggregation Transformer), que utiliza tanto el espacio de la imagen como las características del canal para tareas de superresolución (SR) de imágenes. DAT logra la agregación de características tanto en dimensiones espaciales como de canal de manera dual entre y dentro de bloques, poseyendo así poderosas capacidades de representación de imágenes. Específicamente, DAT aplica alternativamente autoatención espacial y de canal en bloques Transformer consecutivos para lograr la agregación entre bloques. Al mismo tiempo, este artículo también propone el Módulo de interacción adaptativa (AIM) y la Red de retroalimentación de puerta espacial (SGFN) para lograr la agregación de funciones dentro del bloque. AIM mejora el mecanismo de atención existente basado en el espacio y el canal, y SGFN introduce información espacial no lineal en la red de retroalimentación. Los experimentos demuestran que DAT logra el rendimiento de superresolución de imágenes más avanzado actualmente.

Enlace del artículo: https://arxiv.org/abs/2308.03364
Enlace del código: https://github.com/zhengchen1999/DAT

01. Preguntas de investigación

Image Super-Resolution (Image SR para abreviar) es una tecnología de procesamiento de imágenes que tiene como objetivo convertir imágenes de baja resolución (LR) en imágenes de alta resolución (HR) aumentando el detalle y la claridad de la imagen. En pocas palabras, convierte una imagen borrosa de tamaño pequeño en una imagen clara de gran tamaño. La tecnología de superresolución de imágenes tiene una amplia gama de usos en aplicaciones prácticas, incluidos televisores de alta definición, cámaras de vigilancia, imágenes médicas, imágenes satelitales, etc. Hoy en día, con el desarrollo de la inteligencia artificial y el aprendizaje automático, la superresolución de imágenes utilizando tecnología de aprendizaje profundo se ha vuelto común.

02. Motivación del método

Actualmente, Transformer se desempeña bien en tareas SR. Su núcleo es el mecanismo de Autoatención (SA), que puede establecer dependencias globales. El establecimiento de relaciones globales es particularmente importante para la reconstrucción de imágenes de alta resolución. Sin embargo, la complejidad computacional de SA global es proporcional al cuadrado del tamaño de la imagen , lo que limita en gran medida su aplicación en imágenes de alta resolución (que es común en imágenes SR). Teniendo en cuenta esta razón, algunos investigadores proponen SA más eficiente para utilizar Transformer de manera efectiva. En términos generales, se puede dividir en dos aspectos: espacio y canal :

  • En términos de espacio, se proponen ventanas espaciales locales para limitar el rango de aplicación de SA global, por lo que se propone la atención de ventana local (Spatial-Window Self-Attention, SW-SA). Como se muestra en la Figura (a), la dimensión espacial H × W  se divide en múltiples ventanas y la atención se realiza en cada ventana.
  • En cuanto a canales, se propone Channel-Wise Self-Attention (CW-SA). Como se muestra en la Figura (b), la atención   se calcula a lo largo de la dimensión del canal C. Es decir, cada bloque independiente de la imagen se utiliza como token .

Imagen 1. Diagrama esquemático de diferentes mecanismos de autoatención.

Todos estos métodos logran un rendimiento excelente al tiempo que reducen la complejidad computacional. Al mismo tiempo, estos dos métodos   están dirigidos a diferentes dimensiones (espacio y canal) para modelar características de la imagen ( H × W × C ). Entonces, ¿podemos considerar dos dimensiones al mismo tiempo, mejorar aún más las capacidades de modelado de Transformer sobre la base de los métodos existentes y lograr un mejor rendimiento de superresolución?

Inspirándonos en los hallazgos anteriores, propusimos DAT (Transformador de agregación dual) para lograr una fusión efectiva de características espaciales y de canal a través de métodos duales entre bloques e intrabloque. Específicamente, aplicamos alternativamente SW-SA y CW-SA en bloques de transformadores consecutivos. De esta manera alterna, DAT puede capturar simultáneamente información espacial y de canal y lograr la agregación de características entre bloques . Al mismo tiempo, para lograr la agregación de funciones dentro del bloque , también proponemos el Módulo de interacción adaptativa (AIM) y la Red de retroalimentación de puerta espacial (SGFN). AIM mejora el modelado SW-SA y CW-SA en una sola dimensión, mientras que SGFN introduce información espacial no lineal en la red de retroalimentación.

En general, nuestras contribuciones se pueden resumir en los siguientes tres puntos:

  • Se diseña un nuevo modelo de imagen de superresolución: DAT. Este modelo agrega características espaciales y de canal tanto entre bloques como dentro de bloques para mejorar las capacidades de modelado de Transformer.
  • La autoatención espacial y de canal se aplica alternativamente para lograr la agregación de funciones entre bloques. Además, también se proponen AIM y SGFN para lograr la agregación de funciones dentro del bloque.
  • Se llevan a cabo extensos experimentos para demostrar que el DAT propuesto logra un rendimiento de superresolución de imagen de última generación manteniendo una complejidad y un tamaño de modelo bajos.

03. Introducción al método

En esta sección, primero presentamos la arquitectura de DAT. Posteriormente, elaboramos dos componentes, el Módulo de interacción adaptativa (AIM) y la Red espacial cerrada de avance (SGFN).

3.1 Arquitectura del modelo

Imagen 2. Arquitectura modelo

Como se mencionó anteriormente, en DAT utilizamos los módulos de atención SW-SA y CW-SA de manera alterna. Esta combinación puede modelar las características de dos dimensiones y aprovechar sus ventajas complementarias:

  • SW-SA modela el contexto espacial y mejora la representación espacial de cada mapa de características.
  • CW-SA puede construir mejor la dependencia entre canales y expandir el campo receptivo, ayudando así a SW-SA a capturar características espaciales.

Por lo tanto, la información espacial y de canal fluye entre bloques Transformer sucesivos, lo que permite la agregación de características entre bloques.

3.2 Módulo de interacción adaptativa (AIM)

Imagen 3. Módulo de interacción adaptativa (AIM)

Nuestro AIM propuesto logra más mejoras con respecto a SW-SA y CW-SA. Primero, considerando que la autoatención captura principalmente características globales, agregamos una rama convolucional paralela al módulo de autoatención y, a su vez, introducimos la localidad en el Transformador. A continuación, se considera que aunque la ejecución alternativa de SW-SA y CW-SA puede lograr la agregación de características espaciales y de canal entre bloques, para cada autoatención (SA), la información de diferentes dimensiones aún no se puede utilizar de manera efectiva. Por lo tanto, proponemos AIM (área sombreada en gris), que actúa entre dos ramas y repondera de forma adaptativa las características de la dimensión espacial o del canal dependiendo del tipo de rama, logrando así información espacial y de canal en un único módulo de agregación de atención.

Con base en las mejoras anteriores, proponemos versiones mejoradas de Autoatención espacial adaptativa (AS-SA) y Autoatención de canal adaptativo  (Adaptive Channel Self- basadas en SW-SA y CW-SA (Attention

En comparación con el mecanismo de auto atención original, nuestro método tiene:

  • Mejor acoplamiento de local (convolución) y global (atención): las salidas de las dos ramas se pueden ajustar de forma adaptativa para adaptarse y fusionarse entre sí.
  • Capacidades de modelado más sólidas: para SW-SA, la información de canal complementaria mejora sus capacidades de modelado de canales; para AC-SA, a través de la interacción espacial, el conocimiento espacial adicional también mejora las capacidades de representación de características.

3.3 Red de avance de puerta espacial (SGFN)

Imagen 4. Red de avance de Space Gate (SGFN)

La red de retroalimentación tradicional (FFN) consta de capas lineales y activaciones no lineales. Sólo se pueden modelar canales de características, pero se ignora la información espacial del modelado. Además, FFN amplifica internamente los canales de características a través de capas lineales, lo que resulta en redundancia entre canales y dificulta las capacidades de expresión de características.

Para superar los problemas anteriores, propusimos SGFN: introducir la puerta espacial (SG) en FFN. SG es un mecanismo simple de puerta vacía que consiste en convolución en profundidad y multiplicación de elementos. Al mismo tiempo, dividimos uniformemente el mapa de características en dos partes a lo largo de la dimensión del canal y las enviamos a la derivación de convolución y multiplicación respectivamente para reducir la redundancia del canal. Y esta operación también puede reducir efectivamente la complejidad computacional.

En general, AIM y SGFN son los dos componentes principales del bloque Transformer. A través de estos dos módulos, implementamos la agregación de funciones dentro de un bloque:

  • AIM mejora SW-SA desde la dimensión del canal y mejora CW-SA desde la dimensión espacial.
  • SGFN introduce información espacial no lineal en FFN que solo modela las relaciones de los canales.

04. Resultados experimentales

Experimentos de ablación : realizamos experimentos de ablación detallados en cada uno de los métodos propuestos para demostrar la eficacia del método.

Imagen 5. Experimento de ablación.

Comparación cuantitativa : propusimos 2 variantes de modelo de diferentes tamaños (DAT-S, DAT) y las comparamos con los métodos de superresolución de imágenes de última generación en 5 conjuntos de datos de referencia. Como se muestra en la siguiente tabla, nuestro método logra resultados de última generación.

Figura 6. Comparación cuantitativa, el resultado óptimo está coloreado en rojo y el resultado subóptimo está coloreado en rojo

Comparación visual : mostramos los resultados de la comparación de los efectos visuales en la imagen a continuación. Se puede encontrar que nuestro método tiene ventajas obvias en la reconstrucción de detalles.

Imagen 7. Comparación visual

Tamaño del modelo : también proporcionamos una comparación completa del tamaño del modelo (Params), la complejidad (FLOP) y el rendimiento. Nuestro enfoque logra ganancias de rendimiento manteniendo una complejidad y un tamaño de modelo bajos.

Imagen 8. Tamaño del modelo

05. Conclusión

Este artículo propone DAT (Dual Aggregation Transformer), que es un modelo de transformador para superresolución de imágenes. DAT agrega características espaciales y de canales tanto entre bloques como dentro de bloques para lograr poderosas capacidades de modelado. Específicamente, los bloques Transformer consecutivos aplican alternativamente ventanas espaciales y canalizan la autoatención, y logran la agregación de características de dimensiones espaciales y de canales entre bloques. Además, este artículo también propone el Módulo de interacción adaptativa (AIM) y la Red de retroalimentación de puerta espacial (SGFN) para lograr la agregación de características dentro del bloque en dos dimensiones, mejorando así cada bloque Transformador. AIM mejora la capacidad de modelado del mecanismo de autoatención desde dos dimensiones. SGFN complementa la red feedforward con información espacial no lineal. Los experimentos demuestran que DAT logra el rendimiento de superresolución de imágenes más avanzado actualmente.

Autor: Chen Zheng


  Acerca de la comunidad de inteligencia artificial TechBeat

TechBeat (www.techbeat.net) está afiliado a Jiangmen Venture Capital y es una comunidad en crecimiento que reúne a las élites chinas globales de IA.

Esperamos crear más servicios y experiencias profesionales para los talentos de IA, acelerar y acompañar su aprendizaje y crecimiento.

¡Esperamos que esto se convierta en un terreno elevado para que aprendas conocimientos de IA de vanguardia, un terreno fértil para compartir tus últimos trabajos y una base para mejorar y luchar contra monstruos en el camino hacia el avance de la IA!

Introducción más detallada >> TechBeat, una comunidad de aprendizaje y crecimiento que reúne a las élites globales de IA chinas

Supongo que te gusta

Origin blog.csdn.net/hanseywho/article/details/132629230
Recomendado
Clasificación