La estructura de este artículo es relativamente simple, si has leído Swin-Transformer, no hay dificultad. El autor presenta la estructura Swin-T para tareas de visión de bajo nivel, incluida la reconstrucción de superresolución de imágenes, la eliminación de ruido de imágenes y la eliminación de artefactos de compresión de imágenes.SwinIRLa red consta de un 浅层特征提取
módulo, 深层特征提取
módulo, 重建
módulo. El módulo de reconstrucción utiliza diferentes estructuras para diferentes tareas. La extracción de características superficiales es una capa convolucional de 3×3. La extracción profunda de características consta de k bloques RSTB y una capa convolucional más conexiones residuales. Cada RSTB (Res-Swin-Transformer-Block) consta de L STL y una capa de convolución más conexiones residuales.
Enlace original: SwinIR: Restauración de imágenes usando Swin Transformer
Dirección del código fuente: https://github.com/JingyunLiang/SwinIR
SwinIR: restauración de imágenes con Swin Transformer [ICCV 2021]
Abstracto
Los métodos más avanzados para problemas de superresolución de imágenes se basan en redes neuronales convolucionales, y se han realizado pocos intentos para utilizar transformadores. Los transformadores han demostrado un rendimiento impresionante en tareas de visión de alto nivel. Por lo tanto, el autor introdujo Transformer en este artículo y propuso un modelo de restauración de imágenes basado en Swin-T.SwinIR. SwinIR consta de tres partes: extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad . Específicamente, el módulo de extracción de características profundas consta de varios bloques Swin Transformer con conexiones residuales (RSTB), cada bloque tiene varias capas de Swin Transformer y una conexión residual. Los experimentos se llevan a cabo en tres tareas representativas: superresolución de imagen (incluida la superresolución de imagen clásica, ligera y del mundo real), eliminación de ruido de imagen (incluida la eliminación de ruido de imagen en color y escala de grises) y eliminación de artefactos de compresión JPEG. Los resultados experimentales muestran que SwinIR supera a los métodos de última generación en 0,14 puntos porcentuales ~ 0,45 dB en diferentes tareas al tiempo que reduce el número total de parámetros hasta en un 67 %.
1. Introducción
Los enfoques basados en CNN generalmente sufren de dos problemas fundamentales derivados de sus componentes básicos, las capas convolucionales.
- La interacción entre imágenes y núcleos es independiente del contenido . Puede que no sea una buena opción restaurar diferentes regiones de la imagen con el mismo núcleo de convolución.
- CCN solo puede procesar información local y la convolución no es efectiva para el modelado de dependencia a largo plazo.
Como alternativa a CNN, Transformer se basa en un mecanismo de autoatención para capturar interacciones globales entre contextos. El transformador visual ViT para la restauración de imágenes normalmente divide la imagen de entrada en pequeños parches de tamaño fijo y procesa cada parche de forma independiente. Esta estrategia conlleva inevitablemente dos desventajas.
- La imagen recuperada puede introducirse alrededor de cada pequeño parche
边界伪影
. - de cada parche
边界像素会丢失信息
.
Swin Transformer combina las ventajas de CNN y Transformer.
- Debido al mecanismo de atención local, tiene la ventaja de CNN para manejar imágenes a gran escala. (En comparación con el transformador, CNN tiene muchos menos cálculos, por lo que puede manejar imágenes de gran tamaño)
- También tiene las ventajas de Transformer y puede usar el esquema de ventana de cambio para modelar dependencias a largo plazo.
Este artículo propone un modelo de restauración de imágenes basado en Swin-T SwinIR. Más específicamente, SwinIR consta de tres módulos: extracción de características superficiales, extracción de características profundas y módulos de reconstrucción de imágenes de alta calidad. El módulo de extracción de características poco profundas utiliza capas convolucionales para extraer características poco profundas y las transfiere directamente al módulo de reconstrucción a través de largas conexiones de salto para preservar la información de baja frecuencia. El módulo de extracción de características profundas consta principalmente de bloques Swin Transformer (RSTB) con conexiones residuales, y cada bloque utiliza varias capas de Swin Transformer para el cálculo de atención local y la interacción entre ventanas. Se agrega una capa convolucional al final de cada bloque RSTB para mejorar las funciones y proporcionar un atajo para la agregación de funciones mediante conexiones residuales. Finalmente, las características superficiales y profundas se fusionan en el módulo de reconstrucción para lograr una reconstrucción de imágenes de alta calidad.
En comparación con los modelos de restauración de imágenes basados en CNN, SwinIR basado en Transformer tiene varias ventajas:
- La interacción basada en entre el contenido de la imagen y los pesos de atención se puede interpretar como una convolución que varía espacialmente.
- El modelado de dependencia a largo plazo se puede lograr a través de un mecanismo de ventana desplazada .
- Mejor rendimiento con menos parámetros .
2 Método
SwinIR consta de tres módulos: módulo de extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad (HQ). Use el mismo módulo de extracción de características para todas las tareas de restauración, pero use diferentes módulos de reconstrucción para diferentes tareas.
2.1 Descripción general
SwinIR consta de tres módulos: módulo de extracción de características superficiales, extracción de características profundas y reconstrucción de imágenes de alta calidad (HQ). Use el mismo módulo de extracción de características para todas las tareas de restauración, pero use diferentes módulos de reconstrucción para diferentes tareas. La imagen de entrada es ILQ I_{LQ}IL Q
Extracción de características superficiales:
utilice una capa convolucional de 3 × 3 HSF ( ⋅ ) H_{SF}( )HS F( ⋅) para extraer características superficialesF 0 F_0F0. Las capas convolucionales son buenas para el procesamiento visual temprano, lo que lleva a una optimización más estable y mejores resultados de la red, y un mapeo más simple del espacio de la imagen de entrada a un espacio de características de mayor dimensión.
Extracción profunda de funciones:
HDF ( ⋅ ) H_{DF}(·)HD F( ⋅) representa al operador del módulo de extracción de características profundas, que contiene bloques K Swin-T (RSTB) y una capa convolucional de 3×3, y finalmente se conecta con el residual. HRSTB i ( ⋅ ) H_{RSTB_i}(·)HR S T Byo( ⋅) significa el i-ésimo RSTB,HCONV H_{CONV}HC O N Ves la última capa convolucional. La salida F1, F2, ..., FK de cada bloque y la función de profundidad de salida FDF F_{DF}FD FExtraiga bloque por bloque de la siguiente manera:
El uso de una capa convolucional al final de la extracción de características puede introducir el sesgo inductivo de la operación de convolución en la red del Transformador, sentando una mejor base para la agregación de características superficiales y profundas en el futuro.
Módulo de reconstrucción de imagen:
① Superresolución de imagen:
reconstruya imágenes de alta calidad reuniendo características superficiales y profundas IRHQ I_{RHQ}IR H Q,HREC ( ⋅ ) H_{REC}(·)HR E C( ⋅) es la función para reconstruir el módulo. Las características superficiales contienen principalmente frecuencias bajas, mientras que las características profundas se centran en recuperar las frecuencias altas perdidas. A través de conexiones de salto largo, SwinIR puede transmitir directamente información de baja frecuencia al módulo de reconstrucción, lo que ayuda al módulo de extracción de características profundas a concentrarse en la información de alta frecuencia y estabilizar el entrenamiento. Para la implementación del módulo de reconstrucción,las características se muestreancapas convolucionales de subpíxeles
② Eliminación de ruido de imagen y eliminación de artefactos de compresión JPEG
Para tareas que no requieren sobremuestreo, use una sola capa convolucional para la reconstrucción. Además, se utiliza adicionalmente un aprendizaje residual para reconstruir el residual entre imágenes LQ y HQ en lugar de imágenes HQ. HS winIR ( ⋅ ) H_{SwinIR}(·)HS w i n I R( ⋅) representa la función de SwinIR. La fórmula es:
Específicamente: IRHQ = HCONV ( F 0 + FDF ) + ILQ I_{RHQ}=H_{CONV}(F_0+F_{DF})+I_{LQ}IR H Q=HC O N V( F0+FD F)+IL Q
PÉRDIDA:
①Tarea de súper resolución: L1loss
solo usa la pérdida de píxeles L1 simple para una súper resolución de imagen típica y liviana. Para la SR de imágenes del mundo real, se utiliza una combinación de pérdida de píxeles, pérdida de GAN y pérdida de percepción para mejorar la calidad visual.
② Eliminación de ruido de imagen y eliminación de artefactos de compresión JPEG: pérdida de Charbonnier
ϵ ϵϵ es una constante, establecida empíricamente en1 0 − 3 10^{−3}1 0− 3。
2.2 Bloque transformador de oscilación residual
El bloque de Transformador Swin residual (RSTB) está compuesto por L capas de Transformador Swin y 1 capa convolucional más conexión residual. Dada la característica de entrada F i del i-ésimo RSTB, 0 F_{i,0}Fyo , 0, características intermedias F i , 1 , F i , 2 , . . . , F i , L F_{i,1},F_{i,2},...,F_{i,L}Fyo , 1,Fyo , 2,. . . ,Fyo , L,HS wini , j ( ⋅ ) H_{Swin_{i,j}} (·)Hnadar _ _ _yo , j( ⋅) siiEl jjthen el i RSTBj Capas Swin-T. La fórmula se expresa como:
Finalmente, se agrega una capa convolucional antes de la conexión residual. SecciónIILa fórmula de salida de i
RSTB es la siguiente: Este diseño tiene dos ventajas:
- Aunque Transformer puede verse como una instancia específica de convoluciones que varían espacialmente, las capas convolucionales con invariancia espacial pueden mejorar la invariancia de traducción de SwinIR.
- Las conexiones residuales proporcionan conexiones cortas de salto corto desde diferentes bloques a módulos de reconstrucción, lo que permite diferentes niveles de agregación de características .
2.3 Capa de transformador Swin
(Si ha visto Swin-T, esta capa es simplemente el uso de Swin-T).
La capa Swin Transformer (STL) es una variante de la autoatención multicabezal estándar derivada de la capa Transformer original. Para una introducción detallada, vea este Transformador Swin . La principal diferencia radica en el mecanismo de división del cómputo de la atención en ventanas locales y ventanas móviles .
Swin Transformer primero divide la imagen de entrada en parches, y cada parche se usa como un token. Sobre la base del parche, se divide en ventanas locales MxM no superpuestas, y la atención de cada parche y otros parches se calcula por separado en la ruta de la ventana, h cabezas. El módulo de atención es seguido por un perceptrón multicapa (MLP) para una mayor transformación de características, que tiene dos capas completamente conectadas con una función de activación GELU entre las capas. Agregue una capa LayerNorm (LN) antes de MSA y MLP, ambos módulos usan conexiones residuales, como se muestra en la Figura 2 (b) anterior, es un bloque Swin-T estándar. Alterne la partición de ventanas regulares y desplazadas entre bloques Swin-T consecutivos para permitir uniones entre ventanas.
3 experimentos
configuración:
RSTB número K = 6 (imagen ligera SR, RSTB número K= 4)
STL número L = 6
tamaño de ventana M = 8 (reduce los artefactos de compresión JPEG, tamaño de ventana M = 7)
canal número C = 180 (imagen de magnitud ligera SR , número de canales C = 60)
Tenga en cuenta que el número de cabezas h = 6
La estrategia de autointegración se indica con "+"
3.1 Estudio y discusión de la ablación
SwinIR se entrena en DIV2K para obtener una imagen canónica SR (x2) y se prueba en Manga109 .
①Influencia del número de canales, número de RSTB y número de STL:
(a), (b) y (c) en la Figura 3 muestran la influencia del número de canales, número de RSTB y número de STL en RSTB en el rendimiento del modelo Se puede ver que la relación pico de señal a ruido se correlaciona positivamente con estos tres hiperparámetros . Mientras que el rendimiento aumenta continuamente para un gran número de canales, el número total de parámetros crece cuadráticamente. Para equilibrar el rendimiento y el tamaño del modelo, se selecciona 180 como el número de canales en los siguientes experimentos. Para el número de RSTB y el número de capas STL, la ganancia de rendimiento tiende gradualmente a saturarse, y ambos parámetros se eligen en 6 para obtener un modelo relativamente pequeño.
② Influencia del tamaño del parche y el número de imágenes de entrenamiento , comparación de la convergencia del modelo .
SwinIR se compara con un modelo representativo basado en CNN, RCAN, para explorar las diferencias entre los modelos basados en Transformer y CNN.
- En la Fig. 3(d), podemos ver que SwinIR supera a RCAN en diferentes tamaños de parche, y la ganancia de PSNR aumenta cuando aumenta el tamaño del parche.
- La Figura 3(e) muestra el efecto del número de imágenes de entrenamiento. Cuando el porcentaje es superior al 100% (800 imágenes), se utilizan imágenes de Flickr2K para el entrenamiento. Hay dos observaciones. Primero, el rendimiento de SwinIR aumenta con la cantidad de imágenes de entrenamiento. En segundo lugar, a diferencia de los modelos basados en Transformer en IPT que usan una gran cantidad de datos de entrenamiento, SwinIR logra mejores resultados que los modelos basados en CNN que usan los mismos datos de entrenamiento, incluso cuando el conjunto de datos es pequeño (es decir, 25 %, 200 imágenes).
- La relación pico de señal a ruido durante el entrenamiento SwinIR y RCAN se representa en la Fig. 3 (f). SwinIR converge más rápido que RCAN (esto contradice las conclusiones anteriores de que los modelos basados en transformadores tienden a tener una convergencia de modelo lenta).
③Efecto de la conexión residual y la capa convolucional en
RSTB: la Tabla 1 muestra cuatro variantes de conexión residual en RSTB: sin conexión residual, usando capa convolucional 1×1, usando capa convolucional 3×3 y usando tres capas convolucionales A 3×3 (el número de canales en la capa intermedia se establece en una cuarta parte del número de canales de la red).
- La conexión residual en RSTB es importante, mejora PSNR en 0.16dB.
- La mejora que trae el uso de la convolución 1×1 es pequeña, probablemente porque no puede extraer información del vecindario local como la convolución 3×3.
- Aunque el uso de tres capas convolucionales de 3×3 reduce el número de parámetros, el rendimiento sufre un poco.
3.2 Resultados en Imagen SR
Imagen clásica RS:
La Tabla 2 muestra la comparación cuantitativa de SwinIR (escala media) y los métodos de última generación.
- Cuando se entrena en DIV2K, SwinIR logra el mejor rendimiento en todos los factores de aumento en los cinco conjuntos de datos de referencia. RCAN y HAN introducen la atención espacial y de canal, IGNN propone la agregación de funciones de parche adaptativo y NLSA se basa en un mecanismo de atención no local. Pero todos estos mecanismos de atención basados en CNN funcionan peor que el SwinIR basado en Transformer propuesto, lo que demuestra la eficacia del modelo propuesto.
- Cuando se entrena SwinIR en un conjunto de datos más grande, el rendimiento mejora significativamente, logrando una mayor precisión que el mismo modelo basado en Transformer IPT (IPT usa ImageNet (más de 1,3 millones de imágenes) en el entrenamiento y tiene una gran cantidad de parámetros (115,5 M)), por el contrario, SwinIR tiene solo una pequeña cantidad de parámetros (11.8M), menos que los mejores modelos basados en CNN. En términos de tiempo de ejecución, probado en imágenes de 1024 × 1024, RCAN, IPT y SwinIR tardan aproximadamente 0,2, 4,5 y 1,1 segundos, respectivamente. SwinIR puede restaurar detalles de alta frecuencia y reducir los efectos de desenfoque, produciendo bordes nítidos y naturales. Por el contrario, la mayoría de los métodos basados en CNN no recuperan las texturas correctas y producen imágenes borrosas incluso con estructuras diferentes. En comparación con los métodos basados en CNN, IPT genera mejores imágenes, pero sufre distorsiones de imagen y artefactos de contorno.
Imagen ligera SR:
También se realiza una comparación de SwinIR (tamaño pequeño) con métodos de SR de imágenes de luz de última generación. Además de PSNR y SSIM , el número total de parámetros y las operaciones de acumulación múltiple (evaluadas en imágenes HQ de 1280 × 720) también se calculan para comparar el tamaño del modelo y la complejidad computacional de los diferentes modelos. Como se muestra en la Tabla 3, SwinIR logra una ventaja de PSNR de hasta 0,53 dB sobre los métodos de la competencia en diferentes conjuntos de datos de referencia con un número total similar de parámetros y múltiples operaciones de acumulación. Esto demuestra que la arquitectura SwinIR es eficiente.
Imagen del mundo real SR:
El objetivo final de image SR es para aplicaciones prácticas. Zhang y otros propusieron un modelo de degradación práctico, BSRGAN, para la SR de imágenes del mundo real y lograron resultados sorprendentes en escenarios del mundo real. Para probar el rendimiento de SwinIR en SR del mundo real, SwinIR se volvió a entrenar utilizando el mismo modelo de degradación que BSRGAN para la síntesis de imágenes de baja calidad y se probó en el conjunto de datos de referencia de SR del mundo real RealSRSet. Dado que no hay imágenes reales de alta calidad disponibles, solo se proporcionan comparaciones visuales con el modelo bicúbico representativo ESRGAN y los modelos SR de última generación para imágenes del mundo real FSSR, RealSR y BSRGAN. Como se muestra en la Figura 5, las imágenes generadas por SwinIR tienen bordes claros y nítidos, que son visualmente agradables, mientras que otros métodos de comparación pueden tener artefactos insatisfactorios.
3.3 Resultados en la reducción de artefactos de compresión JPEG y 3.4 Resultados en la eliminación de ruido de imagen
Estas dos partes del experimento no se describirán en detalle.
4 Coclusión
En general, la estructura de este artículo es relativamente simple y es la aplicación de tareas posteriores de Swin-T. Un modelo de restauración de imagen propuesto basado en Swin-TSwinIR.
El modelo consta de tres partes: extracción de características superficiales, extracción de características profundas y módulo de reconstrucción de recursos humanos.
La extracción de características profundas se realiza utilizando una pila de bloques de transformadores oscilantes estructurados residuales (RSTB), cada RSTB consta de una capa de transformador oscilante, una capa convolucional y una conexión residual.
La parte más importante es aprender Swin-T , puedes ver la explicación detallada: Swin-Transformer . Comprenda Swin-T, este artículo es una estructura muy convencional.
Los experimentos han demostrado que SwinIR ha logrado el rendimiento más avanzado en tres tareas típicas de restauración de imágenes: SR de imagen clásica, SR de imagen liviana, SR de imagen real, eliminación de ruido de imagen en escala de grises, eliminación de ruido de imagen en color y eliminación de artefactos de compresión JPEG. están probados. En el futuro, los autores continuarán extendiendo el modelo a otras tareas de restauración, como desenfoque y desenfoque de imágenes.
Finalmente, les deseo a todos éxito en la investigación científica, buena salud y éxito en todo ~