Algoritmo de superresolución SwinIR: restauración de imágenes con Swin Transformer

inserte la descripción de la imagen aquí
La estructura de este artículo es relativamente simple, si has leído Swin-Transformer, no hay dificultad. El autor presenta la estructura Swin-T para tareas de visión de bajo nivel, incluida la reconstrucción de superresolución de imágenes, la eliminación de ruido de imágenes y la eliminación de artefactos de compresión de imágenes.SwinIRLa red consta de un 浅层特征提取módulo, 深层特征提取módulo, 重建módulo. El módulo de reconstrucción utiliza diferentes estructuras para diferentes tareas. La extracción de características superficiales es una capa convolucional de 3×3. La extracción profunda de características consta de k bloques RSTB y una capa convolucional más conexiones residuales. Cada RSTB (Res-Swin-Transformer-Block) consta de L STL y una capa de convolución más conexiones residuales.

Enlace original: SwinIR: Restauración de imágenes usando Swin Transformer
Dirección del código fuente: https://github.com/JingyunLiang/SwinIR

Abstracto

Los métodos más avanzados para problemas de superresolución de imágenes se basan en redes neuronales convolucionales, y se han realizado pocos intentos para utilizar transformadores. Los transformadores han demostrado un rendimiento impresionante en tareas de visión de alto nivel. Por lo tanto, el autor introdujo Transformer en este artículo y propuso un modelo de restauración de imágenes basado en Swin-T.SwinIR. SwinIR consta de tres partes: extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad . Específicamente, el módulo de extracción de características profundas consta de varios bloques Swin Transformer con conexiones residuales (RSTB), cada bloque tiene varias capas de Swin Transformer y una conexión residual. Los experimentos se llevan a cabo en tres tareas representativas: superresolución de imagen (incluida la superresolución de imagen clásica, ligera y del mundo real), eliminación de ruido de imagen (incluida la eliminación de ruido de imagen en color y escala de grises) y eliminación de artefactos de compresión JPEG. Los resultados experimentales muestran que SwinIR supera a los métodos de última generación en 0,14 puntos porcentuales ~ 0,45 dB en diferentes tareas al tiempo que reduce el número total de parámetros hasta en un 67 %.
inserte la descripción de la imagen aquí

1. Introducción

Los enfoques basados ​​en CNN generalmente sufren de dos problemas fundamentales derivados de sus componentes básicos, las capas convolucionales.

  1. La interacción entre imágenes y núcleos es independiente del contenido . Puede que no sea una buena opción restaurar diferentes regiones de la imagen con el mismo núcleo de convolución.
  2. CCN solo puede procesar información local y la convolución no es efectiva para el modelado de dependencia a largo plazo.

Como alternativa a CNN, Transformer se basa en un mecanismo de autoatención para capturar interacciones globales entre contextos. El transformador visual ViT para la restauración de imágenes normalmente divide la imagen de entrada en pequeños parches de tamaño fijo y procesa cada parche de forma independiente. Esta estrategia conlleva inevitablemente dos desventajas.

  1. La imagen recuperada puede introducirse alrededor de cada pequeño parche 边界伪影.
  2. de cada parche 边界像素会丢失信息.

Swin Transformer combina las ventajas de CNN y Transformer.

  1. Debido al mecanismo de atención local, tiene la ventaja de CNN para manejar imágenes a gran escala. (En comparación con el transformador, CNN tiene muchos menos cálculos, por lo que puede manejar imágenes de gran tamaño)
  2. También tiene las ventajas de Transformer y puede usar el esquema de ventana de cambio para modelar dependencias a largo plazo.

Este artículo propone un modelo de restauración de imágenes basado en Swin-T SwinIR. Más específicamente, SwinIR consta de tres módulos: extracción de características superficiales, extracción de características profundas y módulos de reconstrucción de imágenes de alta calidad. El módulo de extracción de características poco profundas utiliza capas convolucionales para extraer características poco profundas y las transfiere directamente al módulo de reconstrucción a través de largas conexiones de salto para preservar la información de baja frecuencia. El módulo de extracción de características profundas consta principalmente de bloques Swin Transformer (RSTB) con conexiones residuales, y cada bloque utiliza varias capas de Swin Transformer para el cálculo de atención local y la interacción entre ventanas. Se agrega una capa convolucional al final de cada bloque RSTB para mejorar las funciones y proporcionar un atajo para la agregación de funciones mediante conexiones residuales. Finalmente, las características superficiales y profundas se fusionan en el módulo de reconstrucción para lograr una reconstrucción de imágenes de alta calidad.

En comparación con los modelos de restauración de imágenes basados ​​en CNN, SwinIR basado en Transformer tiene varias ventajas:

  1. La interacción basada en entre el contenido de la imagen y los pesos de atención se puede interpretar como una convolución que varía espacialmente.
  2. El modelado de dependencia a largo plazo se puede lograr a través de un mecanismo de ventana desplazada .
  3. Mejor rendimiento con menos parámetros .

2 Método

SwinIR consta de tres módulos: módulo de extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad (HQ). Use el mismo módulo de extracción de características para todas las tareas de restauración, pero use diferentes módulos de reconstrucción para diferentes tareas.
inserte la descripción de la imagen aquí

2.1 Descripción general

SwinIR consta de tres módulos: módulo de extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad (HQ). Use el mismo módulo de extracción de características para todas las tareas de restauración, pero use diferentes módulos de reconstrucción para diferentes tareas. La imagen de entrada es ILQ I_{LQ}IL Q

Extracción de características superficiales:
utilice una capa convolucional de 3 × 3 HSF ( ⋅ ) H_{SF}( )HS F( ) para extraer características superficialesF 0 F_0F0. Las capas convolucionales son buenas para el procesamiento visual temprano, lo que lleva a una optimización más estable y mejores resultados de la red, y un mapeo más simple del espacio de la imagen de entrada a un espacio de características de mayor dimensión.
inserte la descripción de la imagen aquí

Extracción profunda de funciones:
HDF ( ⋅ ) H_{DF}(·)HD F( ) representa al operador del módulo de extracción de características profundas, que contiene bloques K Swin-T (RSTB) y una capa convolucional de 3×3, y finalmente se conecta con el residual. HRSTB i ( ⋅ ) H_{RSTB_i}(·)HR S T Byo( ) significa el i-ésimo RSTB,HCONV H_{CONV}HC O N Ves la última capa convolucional. La salida F1, F2, ..., FK de cada bloque y la función de profundidad de salida FDF F_{DF}FD FExtraiga bloque por bloque de la siguiente manera:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

El uso de una capa convolucional al final de la extracción de características puede introducir el sesgo inductivo de la operación de convolución en la red del Transformador, sentando una mejor base para la agregación de características superficiales y profundas en el futuro.

Módulo de reconstrucción de imagen:

① Superresolución de imagen:
reconstruya imágenes de alta calidad reuniendo características superficiales y profundas IRHQ I_{RHQ}IR H QHREC ( ⋅ ) H_{REC}(·)HR E C( ) es la función para reconstruir el módulo. Las características superficiales contienen principalmente frecuencias bajas, mientras que las características profundas se centran en recuperar las frecuencias altas perdidas. A través de conexiones de salto largo, SwinIR puede transmitir directamente información de baja frecuencia al módulo de reconstrucción, lo que ayuda al módulo de extracción de características profundas a concentrarse en la información de alta frecuencia y estabilizar el entrenamiento. Para la implementación del módulo de reconstrucción,las características se muestreancapas convolucionales de subpíxeles
inserte la descripción de la imagen aquí

② Eliminación de ruido de imagen y eliminación de artefactos de compresión JPEG
Para tareas que no requieren sobremuestreo, use una sola capa convolucional para la reconstrucción. Además, se utiliza adicionalmente un aprendizaje residual para reconstruir el residual entre imágenes LQ y HQ en lugar de imágenes HQ. HS winIR ( ⋅ ) H_{SwinIR}(·)HS w i n I R( ) representa la función de SwinIR. La fórmula es:
inserte la descripción de la imagen aquí
Específicamente: IRHQ = HCONV ( F 0 + FDF ​​) + ILQ I_{RHQ}=H_{CONV}(F_0+F_{DF})+I_{LQ}IR H Q=HC O N V( F0+FD F)+IL Q

PÉRDIDA:

①Tarea de súper resolución: L1loss
inserte la descripción de la imagen aquí
solo usa la pérdida de píxeles L1 simple para una súper resolución de imagen típica y liviana. Para la SR de imágenes del mundo real, se utiliza una combinación de pérdida de píxeles, pérdida de GAN y pérdida de percepción para mejorar la calidad visual.

② Eliminación de ruido de imagen y eliminación de artefactos de compresión JPEG: pérdida de Charbonnier
inserte la descripción de la imagen aquí
ϵ ϵϵ es una constante, establecida empíricamente en1 0 − 3 10^{−3}1 03

 

2.2 Bloque transformador de oscilación residual

El bloque de Transformador Swin residual (RSTB) está compuesto por L capas de Transformador Swin y 1 capa convolucional más conexión residual. Dada la característica de entrada F i del i-ésimo RSTB, 0 F_{i,0}Fyo , 0, características intermedias F i , 1 , F i , 2 , . . . , F i , L F_{i,1},F_{i,2},...,F_{i,L}Fyo , 1,Fyo , 2,. . . ,Fyo , LHS wini , j ( ⋅ ) H_{Swin_{i,j}} (·)Hnadar _ _ _yo , j( ) siiEl jjthen el i RSTBj Capas Swin-T. La fórmula se expresa como:
inserte la descripción de la imagen aquí
Finalmente, se agrega una capa convolucional antes de la conexión residual. SecciónIILa fórmula de salida de i
inserte la descripción de la imagen aquí
RSTB es la siguiente: Este diseño tiene dos ventajas:

  1. Aunque Transformer puede verse como una instancia específica de convoluciones que varían espacialmente, las capas convolucionales con invariancia espacial pueden mejorar la invariancia de traducción de SwinIR.
  2. Las conexiones residuales proporcionan conexiones cortas de salto corto desde diferentes bloques a módulos de reconstrucción, lo que permite diferentes niveles de agregación de características .

2.3 Capa de transformador Swin

(Si ha visto Swin-T, esta capa es simplemente el uso de Swin-T).

La capa Swin Transformer (STL) es una variante de la autoatención multicabezal estándar derivada de la capa Transformer original. Para una introducción detallada, vea este Transformador Swin . La principal diferencia radica en el mecanismo de división del cómputo de la atención en ventanas locales y ventanas móviles .

Swin Transformer primero divide la imagen de entrada en parches, y cada parche se usa como un token. Sobre la base del parche, se divide en ventanas locales MxM no superpuestas, y la atención de cada parche y otros parches se calcula por separado en la ruta de la ventana, h cabezas. El módulo de atención es seguido por un perceptrón multicapa (MLP) para una mayor transformación de características, que tiene dos capas completamente conectadas con una función de activación GELU entre las capas. Agregue una capa LayerNorm (LN) antes de MSA y MLP, ambos módulos usan conexiones residuales, como se muestra en la Figura 2 (b) anterior, es un bloque Swin-T estándar. Alterne la partición de ventanas regulares y desplazadas entre bloques Swin-T consecutivos para permitir uniones entre ventanas.
inserte la descripción de la imagen aquí

3 experimentos

configuración:
RSTB número K = 6 (imagen ligera SR, RSTB número K= 4)
STL número L = 6
tamaño de ventana M = 8 (reduce los artefactos de compresión JPEG, tamaño de ventana M = 7)
canal número C = 180 (imagen de magnitud ligera SR , número de canales C = 60)
Tenga en cuenta que el número de cabezas h = 6
La estrategia de autointegración se indica con "+"

3.1 Estudio y discusión de la ablación

SwinIR se entrena en DIV2K para obtener una imagen canónica SR (x2) y se prueba en Manga109 .

①Influencia del número de canales, número de RSTB y número de STL:
(a), (b) y (c) en la Figura 3 muestran la influencia del número de canales, número de RSTB y número de STL en RSTB en el rendimiento del modelo Se puede ver que la relación pico de señal a ruido se correlaciona positivamente con estos tres hiperparámetros . Mientras que el rendimiento aumenta continuamente para un gran número de canales, el número total de parámetros crece cuadráticamente. Para equilibrar el rendimiento y el tamaño del modelo, se selecciona 180 como el número de canales en los siguientes experimentos. Para el número de RSTB y el número de capas STL, la ganancia de rendimiento tiende gradualmente a saturarse, y ambos parámetros se eligen en 6 para obtener un modelo relativamente pequeño.

② Influencia del tamaño del parche y el número de imágenes de entrenamiento , comparación de la convergencia del modelo .
SwinIR se compara con un modelo representativo basado en CNN, RCAN, para explorar las diferencias entre los modelos basados ​​en Transformer y CNN.

  1. En la Fig. 3(d), podemos ver que SwinIR supera a RCAN en diferentes tamaños de parche, y la ganancia de PSNR aumenta cuando aumenta el tamaño del parche.
  2. La Figura 3(e) muestra el efecto del número de imágenes de entrenamiento. Cuando el porcentaje es superior al 100% (800 imágenes), se utilizan imágenes de Flickr2K para el entrenamiento. Hay dos observaciones. Primero, el rendimiento de SwinIR aumenta con la cantidad de imágenes de entrenamiento. En segundo lugar, a diferencia de los modelos basados ​​en Transformer en IPT que usan una gran cantidad de datos de entrenamiento, SwinIR logra mejores resultados que los modelos basados ​​en CNN que usan los mismos datos de entrenamiento, incluso cuando el conjunto de datos es pequeño (es decir, 25 %, 200 imágenes).
  3. La relación pico de señal a ruido durante el entrenamiento SwinIR y RCAN se representa en la Fig. 3 (f). SwinIR converge más rápido que RCAN (esto contradice las conclusiones anteriores de que los modelos basados ​​en transformadores tienden a tener una convergencia de modelo lenta).

inserte la descripción de la imagen aquí
③Efecto de la conexión residual y la capa convolucional en
RSTB: la Tabla 1 muestra cuatro variantes de conexión residual en RSTB: sin conexión residual, usando capa convolucional 1×1, usando capa convolucional 3×3 y usando tres capas convolucionales A 3×3 (el número de canales en la capa intermedia se establece en una cuarta parte del número de canales de la red).

  1. La conexión residual en RSTB es importante, mejora PSNR en 0.16dB.
  2. La mejora que trae el uso de la convolución 1×1 es pequeña, probablemente porque no puede extraer información del vecindario local como la convolución 3×3.
  3. Aunque el uso de tres capas convolucionales de 3×3 reduce el número de parámetros, el rendimiento sufre un poco.
    inserte la descripción de la imagen aquí

3.2 Resultados en Imagen SR

Imagen clásica RS:
La Tabla 2 muestra la comparación cuantitativa de SwinIR (escala media) y los métodos de última generación.

  1. Cuando se entrena en DIV2K, SwinIR logra el mejor rendimiento en todos los factores de aumento en los cinco conjuntos de datos de referencia. RCAN y HAN introducen la atención espacial y de canal, IGNN propone la agregación de funciones de parche adaptativo y NLSA se basa en un mecanismo de atención no local. Pero todos estos mecanismos de atención basados ​​en CNN funcionan peor que el SwinIR basado en Transformer propuesto, lo que demuestra la eficacia del modelo propuesto.
  2. Cuando se entrena SwinIR en un conjunto de datos más grande, el rendimiento mejora significativamente, logrando una mayor precisión que el mismo modelo basado en Transformer IPT (IPT usa ImageNet (más de 1,3 millones de imágenes) en el entrenamiento y tiene una gran cantidad de parámetros (115,5 M)), por el contrario, SwinIR tiene solo una pequeña cantidad de parámetros (11.8M), menos que los mejores modelos basados ​​en CNN. En términos de tiempo de ejecución, probado en imágenes de 1024 × 1024, RCAN, IPT y SwinIR tardan aproximadamente 0,2, 4,5 y 1,1 segundos, respectivamente. SwinIR puede restaurar detalles de alta frecuencia y reducir los efectos de desenfoque, produciendo bordes nítidos y naturales. Por el contrario, la mayoría de los métodos basados ​​en CNN no recuperan las texturas correctas y producen imágenes borrosas incluso con estructuras diferentes. En comparación con los métodos basados ​​en CNN, IPT genera mejores imágenes, pero sufre distorsiones de imagen y artefactos de contorno.
    inserte la descripción de la imagen aquí

Imagen ligera SR:

También se realiza una comparación de SwinIR (tamaño pequeño) con métodos de SR de imágenes de luz de última generación. Además de PSNR y SSIM , el número total de parámetros y las operaciones de acumulación múltiple (evaluadas en imágenes HQ de 1280 × 720) también se calculan para comparar el tamaño del modelo y la complejidad computacional de los diferentes modelos. Como se muestra en la Tabla 3, SwinIR logra una ventaja de PSNR de hasta 0,53 dB sobre los métodos de la competencia en diferentes conjuntos de datos de referencia con un número total similar de parámetros y múltiples operaciones de acumulación. Esto demuestra que la arquitectura SwinIR es eficiente.
inserte la descripción de la imagen aquí

Imagen del mundo real SR:

El objetivo final de image SR es para aplicaciones prácticas. Zhang y otros propusieron un modelo de degradación práctico, BSRGAN, para la SR de imágenes del mundo real y lograron resultados sorprendentes en escenarios del mundo real. Para probar el rendimiento de SwinIR en SR del mundo real, SwinIR se volvió a entrenar utilizando el mismo modelo de degradación que BSRGAN para la síntesis de imágenes de baja calidad y se probó en el conjunto de datos de referencia de SR del mundo real RealSRSet. Dado que no hay imágenes reales de alta calidad disponibles, solo se proporcionan comparaciones visuales con el modelo bicúbico representativo ESRGAN y los modelos SR de última generación para imágenes del mundo real FSSR, RealSR y BSRGAN. Como se muestra en la Figura 5, las imágenes generadas por SwinIR tienen bordes claros y nítidos, que son visualmente agradables, mientras que otros métodos de comparación pueden tener artefactos insatisfactorios.
inserte la descripción de la imagen aquí

3.3 Resultados en la reducción de artefactos de compresión JPEG y 3.4 Resultados en la eliminación de ruido de imagen

Estas dos partes del experimento no se describirán en detalle.
 

4 Coclusión

En general, la estructura de este artículo es relativamente simple y es la aplicación de tareas posteriores de Swin-T. Un modelo de restauración de imagen propuesto basado en Swin-TSwinIR.
El modelo consta de tres partes: extracción de características superficiales, extracción de características profundas y módulo de reconstrucción de recursos humanos.
La extracción de características profundas se realiza utilizando una pila de bloques de transformadores oscilantes estructurados residuales (RSTB), cada RSTB consta de una capa de transformador oscilante, una capa convolucional y una conexión residual.

La parte más importante es aprender Swin-T , puedes ver la explicación detallada: Swin-Transformer . Comprenda Swin-T, este artículo es una estructura muy convencional.

Los experimentos han demostrado que SwinIR ha logrado el rendimiento más avanzado en tres tareas típicas de restauración de imágenes: SR de imagen clásica, SR de imagen liviana, SR de imagen real, eliminación de ruido de imagen en escala de grises, eliminación de ruido de imagen en color y eliminación de artefactos de compresión JPEG. están probados. En el futuro, los autores continuarán extendiendo el modelo a otras tareas de restauración, como desenfoque y desenfoque de imágenes.


Finalmente, les deseo a todos éxito en la investigación científica, buena salud y éxito en todo ~

Supongo que te gusta

Origin blog.csdn.net/qq_45122568/article/details/124685158
Recomendado
Clasificación