Algoritmo de superresolución ESRT: transformador para superresolución de imagen única

inserte la descripción de la imagen aquí
La estructura de red ESRT (Transformador de súper resolución eficiente) en este artículo es bastante complicada y es una combinación de CNN y Transformador. El artículo propone una estructura SRTransformer eficiente, que es unaTransformador ligero. El autor considera que los detalles similares en una imagen en superresolución de imagen se pueden usar como un suplemento de referencia (similar a la superresolución basada en la imagen de referencia Ref), por lo que se introduce el Transformador para modelar una dependencia a largo plazo en la imagen. . Sin embargo, estos métodos de ViT son demasiado intensivos desde el punto de vista computacional y ocupan demasiada memoria, por lo que se propuso esta versión liviana de la estructura Transformer (ET), ET只使用了transformer中的encodery el autor también usó feature spiltel QKV para dividirlo en grupos para calcular la atención y finalmente el empalme. El artículo también propone uno en la parte CNN 高频滤波器模块HFM, que retiene información de alta frecuencia para la extracción de características.

El enfoque principal del artículo es la velocidad (alta eficiencia), y el efecto también es muy bueno. En la parte experimental, el autor mencionó que injertar la estructura ET en RCAN también puede mejorar el efecto de RCAN, lo que demuestra la efectividad de ET .

Enlace original: ESRT: Transformer for Single Image Super-Resolution
Dirección del código fuente: https://github.com/luissen/ESRT.

Abstracto

Con el desarrollo del aprendizaje profundo, la tecnología de superresolución de imagen única (SISR) ha progresado mucho. Recientemente, cada vez más investigadores han comenzado a explorar la aplicación de Transformer en tareas de visión artificial. Sin embargo, el enorme costo computacional de Vision Transformer y la alta huella de memoria GPU dificultan su progreso. En este artículo, se propone un nuevo transformador de superresolución eficiente (ESRT) para SISR. ESRT es un modelo híbrido que consta de 轻型CNN主干网(LCB)y 轻型Transformer主干网(LTB). Entre ellos, LCB puede ajustar dinámicamente el tamaño de los mapas de características para extraer características profundas con un menor costo computacional. LTB consta de una serie de transformadores eficientes (ET), que utilizan una atención multicabezal eficiente (EMHA) especialmente diseñada, que ocupa muy poca memoria GPU. Extensos experimentos muestran que ESRT logra resultados competitivos a un menor costo computacional. Comparado con el Transformer original que ocupa 16057M de memoria GPU, ESRT solo ocupa 4191M de memoria GPU.
inserte la descripción de la imagen aquí

1. Introducción

Debido a que los parches de imágenes similares en la misma imagen se pueden usar como imágenes de referencia entre sí , de modo que los detalles de textura de un parche específico se pueden recuperar usando el parche de referencia. Inspirándose en esto, el autor introduce Transformer en la tarea SISR, porque Transformer tiene una gran capacidad de expresión de características y puede modelar dependencias a largo plazo en imágenes . El objetivo es explorar la viabilidad de usar Transformer en tareas SISR ligeras. Recientemente se han propuesto varios transformadores para tareas de visión artificial. Sin embargo, estos métodos suelen ocupar una gran cantidad de memoria GPU , lo que limita en gran medida su flexibilidad y escenarios de aplicación.

Para abordar los problemas anteriores, se propone un transformador de superresolución eficiente (ESRT) para mejorar la capacidad de las redes SISR para capturar dependencias de contexto de larga distancia al tiempo que reduce significativamente el costo de memoria de las GPU .

ESRT es una arquitectura híbrida que utiliza el modelo "CNN+Transformer" para procesar pequeños conjuntos de datos SR. ESRT se puede dividir en dos partes: la red troncal CNN ligera (LCB) y la red troncal transformadora ligera (LTB).

  1. Para LCB, se presta más atención a la reducción de la forma de los mapas de características en las capas intermedias y al mantenimiento de una profundidad de red profunda para garantizar una gran capacidad de red. Inspirado en los filtros de paso alto, uno está diseñado 高频滤波模块(HFM)para capturar los detalles de textura de las imágenes . En HFM, se propone otro método 高保留块(HPB)para extraer con eficacia características latentes a través de cambios de tamaño. En términos de extracción de características, se propone una potente unidad básica de extracción de características 自适应残差特征块(ARFB), que puede ajustar de forma adaptativa la ruta residual y el peso de la ruta.
  2. En LTB, se propone uno 高效Transformer(ET), que utiliza un mecanismo Efficient Multi-Head Attention (EMHA) especialmente diseñado para reducir el consumo de memoria GPU. Y solo considere la relación entre los parches de imagen en las regiones locales , porque los píxeles en las imágenes SR generalmente están relacionados con sus vecinos. Aunque es una región local, es mucho más amplia que las circunvoluciones regulares y puede extraer información contextual más útil. Por lo tanto, ESRT puede aprender de manera efectiva la relación entre parches locales similares, lo que permite que las regiones súper resueltas tengan más referencias.

Las principales contribuciones son las siguientes:

  1. Se propone una red troncal de CNN ligera (LCB) que utiliza bloques de alta conservación (HPB) para redimensionar dinámicamente mapas de características para extraer características profundas con bajo costo computacional
  2. Se propone una red troncal de transformador ligero (LTB) para capturar dependencias a largo plazo entre parches similares en una imagen utilizando un transformador eficiente (ET) especialmente diseñado y un mecanismo de atención multicabezal eficiente (EMHA).
  3. Se propone un nuevo modelo llamado Efficient SR Transformer (ESRT) para mejorar de manera efectiva la expresividad de las funciones y las dependencias a largo plazo de parches similares en las imágenes, logrando un mejor rendimiento con un menor costo computacional.

2 Transformador de superresolución eficiente

El transformador de superresolución eficiente (ESRT) consta principalmente de cuatro partes: extracción de características superficiales, red troncal CNN ligera (LCB), red troncal de transformador ligero (LTB) y reconstrucción de imágenes.
inserte la descripción de la imagen aquí

Extracción de características superficiales:
una capa convolucional de 3 × 3
inserte la descripción de la imagen aquí

Red troncal CNN ligera (LCB):
consta de varios bloques de alta conservación (HPB) (3 en el experimento), ζ n ζ^ngramon es el mapeo de la n-ésima HPB,la salida de la n-ésima HPB esF n F_nFn,oficial:
inserte la descripción de la imagen aquí

Red troncal de transformador ligero (LTB):
la salida de cada HPB se concatena y se envía a la función de fusión LTB. El LTB consta de varios transformadores eficientes (ET) (1 en el experimento), ϕ \ phiϕ representa la función de ET, F d F_dFrees la salida de LTB, la fórmula es la siguiente .
inserte la descripción de la imagen aquí

Reconstrucción de imagen:
final F d F_dFrey F 0 F_0F0Al mismo tiempo, se alimenta al módulo de reconstrucción para obtener la imagen reconstruida ISR I_{SR}ISR _y sif yfp f_pFpagRepresentar la capa convolucional y la capa convolucional de subpíxeles respectivamente, y obtener el ISR I_{SR}ISR _La fórmula es la siguiente:
inserte la descripción de la imagen aquí

La estructura general de ESRT es relativamente convencional y la extracción profunda de funciones utiliza CNN y Transformer conjuntamente. En LCB se usa una estructura relativamente compleja, y la velocidad de razonamiento es relativamente lenta, mientras que en ET solo se usa una estructura de codificador de transformador, lo que no genera demasiados cálculos. Experimentos posteriores también demostraron que agregar ET puede traer beneficios a la red.

2.1 Red troncal CNN ligera (LCB)

La función de la red troncal de CNN ligera (LCB) es extraer las características de la imagen latente por adelantado, lo que permite que el modelo tenga la capacidad inicial de superresolución . LCB consiste principalmente 高保留块(HPB)en una serie.
inserte la descripción de la imagen aquí

HPB:
Las redes SR anteriores generalmente mantienen la resolución espacial del mapa de características sin cambios durante el procesamiento. En este artículo, para reducir el costo computacional , se propone un bloque novedoso de alta preservación (HPB) para reducir la resolución de las características procesadas . Sin embargo, la reducción en el tamaño del mapa de características a menudo da como resultado la pérdida de detalles de la imagen, lo que da como resultado imágenes reconstruidas visualmente poco naturales. Para resolver este problema, en H.P.B., el autor propone creativamente 高频滤波模块(HFM)y 自适应残差特征块(ARFB).

Primero presente la estructura general de HPB: consta de HFM y ARFB. Luego analice la estructura de HFM y ARFB en detalle.

todo el marco: Salida F n − 1 F_{n-1} del HPB anteriorFn 1, como la entrada del HPB actual. Primero siga un ARFBmétodo para extraer F n − 1 F_{n-1}Fn 1como una función de entrada al HFM. Luego, use HFMla información de alta frecuencia de las características calculadas (marcadas como P alta P_{alta}PAGalto _ _ _). Después de obtener P alto P_{alto}PAGalto _ _ _Finalmente, el tamaño del mapa de funciones se reduce para reducir el costo computacional y la redundancia de funciones. 下采样El mapa de características se expresa como fn − 1 ′ f'_{n−1}Fnorte - 1′′, para fn − 1 ′ f'_{n−1}Fnorte - 1′′Úselo 多个共享权重的ARFBpara explorar la información latente de las imágenes de SR (reducir parámetros). Al mismo tiempo, use 单个ARFBel procesamiento P alto P_{alto}PAGalto _ _ _Para alinear el espacio de características fn − 1 ′ f'_{n−1}Fnorte - 1′′fn − 1 ′ f'_{n−1}Fnorte - 1′′Después de la extracción de características 上采样al tamaño original mediante interpolación bilineal. 拼接融合fn − 1 ′ f'_{n−1}Fnorte - 1′′P alto ′ P'_{alto}PAGalto _ _ _′′, obtener fn − 1 ′ ′ f''_{n−1}Fnorte - 1′′ ′′, para conservar los detalles iniciales. Obtener fn − 1 ′ ′ f''_{n−1}Fnorte - 1′′ ′′La fórmula de es:
inserte la descripción de la imagen aquí
Entre ellos, ↑ y ↓ representan muestreo ascendente y descendente; fa f_aFunRepresenta la función de ARFB. Para equilibrar el tamaño y el rendimiento del modelo, se adoptan cinco ARFB con parámetros compartidos.

fn − 1 ′ ′ f''_{n−1}Fnorte - 1′′ ′′Concatenado por dos características, así que utilícelo primero 1×1卷积层para reducir la cantidad de canales t. Luego, use 通道注意力para ponderar canales con altos valores de activación. Finalmente, las características finales se extraen usando ARFB y se propone 全局残差连接agregar las características originales F n − 1 F_{n−1}Fn 1a F n F_nFn. El propósito de esta operación es aprender información residual de la entrada y estabilizar el entrenamiento.

El módulo de atención del canal se cita del artículo Redes de compresión y excitación, o es el mismo que el módulo CA utilizado en RCAN .

Este artículo es en realidad una estructura residual de Matryoshka, pero se han realizado muchas mejoras en la estructura residual, como agregar escalado Res adaptativo, filtros de alta frecuencia, convolución circular de muestreo descendente, etc.

HFM: módulo de filtrado de alta frecuencia

Dado que la transformada de Fourier es difícil de integrar en CNN, este artículo propone una 可微HFM. El objetivo de HFM es estimar la información de alta frecuencia de la imagen del espacio LR .
inserte la descripción de la imagen aquí
Como se muestra en la Figura 4, suponga que el mapa de características de entrada TL T_LTLEl tamaño es C×H×WC×H×WC×H×W , primero平均池化obtengaTA T_ATun:
inserte la descripción de la imagen aquí
donde k representa el tamaño del núcleo de la capa de agrupación y el mapa de características intermedias TA T_ATunEl tamaño es C × H k × W k C×\frac{H}{k}×\frac{W}{k}C×kH×kWTA T_ATunCada valor de puede tratarse como un TL T_L especificadoTLLa intensidad media de un área pequeña. Posteriormente se realiza TA 上采样para obtener las dimensiones C × H × WC × H × WC×H×nuevo tensorTU T_U de WTtuTU T_UTtues la expresión de la información de suavidad promedio. Finalmente, de TL T_LTL按元素减去TU T_UTtupara obtener información de alta frecuencia.

TL T_LTLTU T_UTtuEl mapa de activación visual de la información de alta frecuencia se muestra en la Fig. 5. Se puede observar que TU T_UTtuque TL T_LTLmás suave como es TL T_LTLinformación promedio. Mientras tanto, la información de alta frecuencia conserva los detalles y los bordes de los mapas de características antes de reducir la resolución (agrupación promedio). Por lo tanto, es crucial preservar esta información.

ARFB:Bloque de características residuales adaptables

Inspirado en ResNet y VDSR, cuando aumenta la profundidad del modelo, 残差结构puede aliviar el problema de desaparición del gradiente y aumentar la capacidad de representación del modelo. Por lo tanto, se propone un bloque (ARFB) 自适应残差特征como el bloque básico de extracción de características.
inserte la descripción de la imagen aquí
ARFB contiene dos unidades residuales (RU) y dos capas convolucionales. Para ahorrar memoria y número de parámetros, RU consta de dos módulos: un módulo de reducción y un módulo de expansión . Para reducciones, 将特征映射的通道减少一半y para reversiones en ampliaciones. Al mismo tiempo, se diseña un algoritmo de escalado residual (RSA) con pesos adaptables para ajustar dinámicamente los pesos de la ruta residual. En comparación con la escala Res fija, RSA puede mejorar el flujo de gradientes y ajustar automáticamente el contenido del mapa de características residuales para el mapa de características de entrada. Supongamos que xru x_{ru}Xtu _es la entrada de RU, el proceso de RU se puede expresar como :
inserte la descripción de la imagen aquí

Entre ellos, yru y_{ru}ytu _es la salida de RU, fre f_{re}Fre _y fex f_{ex}Fe xRepresenta las operaciones de reducción y expansión, λ res λ_{res}yor e sλ x λ_xyoxson los pesos adaptativos de los dos caminos, respectivamente. Úselo 1×1卷积层para variar el número de canales para las funciones de reducción y expansión. Al mismo tiempo, las salidas de dos RU se concatenan y se ingresan 1×1卷积层para hacer un uso completo de las características jerárquicas . Finalmente, los canales se utilizan 3×3卷积层para reducir los mapas de características y extraer información efectiva de las características fusionadas .

LCB, se acabó la parte de CNN, reseña: LCB está compuesta por tres HPB. Cada HPB está compuesto por HFM y ARFB, y la estructura incluye canal de atención y ARFB con adopción hacia arriba y hacia abajo y cinco parámetros compartidos. Un concepto recorre todo el texto: reducir parámetros. (Los parámetros compartidos ARFB, el muestreo ascendente y descendente y las capas de expansión reducidas son todos para reducir los parámetros y reflejar un peso ligero y una alta eficiencia )

 


2.3 Red troncal de transformador ligero (LTB)

En SISR, los bloques de imagen similares en una imagen se pueden usar como imágenes de referencia entre sí, por lo que se puede hacer referencia a otros bloques de imagen para restaurar los detalles de textura del bloque de imagen actual, que es muy adecuado para usar Transformer . Sin embargo, las variantes anteriores de Vision Transformer suelen requerir una gran cantidad de memoria GPU , lo que dificulta el desarrollo de Transformer en el campo de la visión. En este artículo, los autores proponen una red troncal de transformador ligero (LTB). LTB consta de transformadores eficientes (ET) especialmente diseñados , que pueden capturar las dependencias a largo plazo de regiones locales similares en imágenes con un bajo costo computacional .
inserte la descripción de la imagen aquí
Trabajo preparatorio antes y después: expanda el mapa de características en una secuencia unidimensional y vuelva a convertir la secuencia en el mapa de características

El Transformador estándar toma una secuencia unidimensional como entrada y aprende las dependencias de larga distancia de la secuencia. Mientras que para las tareas de visión, la entrada siempre es una imagen 2D .

En ViT, las secuencias 1D se generan dividiendo bloques que no se superponen , lo que significa que no hay superposición de píxeles entre cada bloque. Los autores creen que este método de preprocesamiento no es adecuado para SISR.

Por lo tanto, se propone un nuevo método de procesamiento de mapas de características. Como se muestra en la Figura 7, el mapa de funciones se divide en pequeñas piezas utilizando la técnica de despliegue (de hecho, se utilizan bloques superpuestos para dividir el parche ), y cada pequeña pieza se considera una "palabra". Específicamente, el mapa de características ∈ RC × H × W ∈ R^{C×H×W}RC × H × W (pork × kk × kk×k core) se expande en una serie de parches, a saber,F pi ∈ R k 2 × C , i = 1 , ... , N F_{pi} ∈ R^{k^2×C}, i={1, ..., NORTE}Fp yoRk2 ×C,yo=1 ,, N , dondeN = H × WN=H×Wnorte=H×W es el número de parches. La parte clave es que el número de N es H × WH × WH×W , significa cada k × kk × kcuando se dividek×El paso de movimiento del kernel de k es 1, y hay una gran superposición entre cada parche. Tanto ViT como Swin-T se dividen por bloques que no se superponen, y el número de N obtenido esH k × W k \frac{H}{k}\times\frac{W}{k}kH×kW

El autor dijo que dado que la operación "desplegar" reflejará automáticamente la información de posición de cada parche, se eliminará la incrustación de posición aprendible de cada parche (??? Esto se elimina). Estos parches luego se envían directamente a ET. La salida de ET tiene la misma forma que la entrada y la operación "doblar" se usa para reconstruir el mapa de características.

 
EMHA: Efficient Multi-Head Attention
inserte la descripción de la imagen aquí
es simple y eficiente Al igual que ViT, ET solo utiliza la estructura de codificador de transformador estándar. Como se muestra a la izquierda de la Figura 8, en el codificador de ET, hay una atención multicabezal eficiente (EMHA) y un MLP. Mientras tanto, la normalización de capas se usa antes de cada bloque y las conexiones residuales se aplican después de cada bloque. La parte ET es básicamente la misma que la estructura del codificador estándar. La única diferencia es que ① el autor divide las características de QKV en s grupos, y cada grupo presta atención para obtener la salida O i O_iOyo, luego Concat la salida a O. Divida la multiplicación de matrices grandes en múltiples multiplicaciones de matrices pequeñas para reducir las operaciones de parámetros; la máscara ② no es aplicable a los cálculos de atención.
inserte la descripción de la imagen aquí

Como se muestra en el lado derecho de la Figura 8, suponga que la entrada E i E_imiyotiene la forma B×C×N.

  1. Primero, reduce el número de canales缩减层 a la mitad usando ( B × C 2 × NB×\frac{C}{2}×NB×2c×N)。
  2. Luego, un mapa de características se proyecta en tres elementos线性层 : Q (consulta), K (clave) y V (valor) mediante un archivo .
  3. Utilice 特征分割el módulo (FS) para dividir Q, K y V en s segmentos con el mismo factor de división s , indicado como Q 1 , . . . , Q s Q_1,...,Q_sq1,. . . ,qsK 1 , . . . , Ks K_1,...,K_sk1,. . . ,ksV 1 , . . . , Vs V_1,...,V_sV1,. . . ,Vs
  4. 对应的Q i , K i , V i Q_i,K_i,V_iqyo,kyo,VyoCalcule por separado 注意力操作(SDPA) la salida O i O_iOyo, SDPA omite la operación de máscara en comparación con el módulo de atención estándar.
  5. General O 1 , O 2 , … , O s O_1,O_2,…,O_sO1,O2,,Os拼接hacia arriba, generando la característica de salida completa O.
  6. Utilice 扩展层el número de canal de recuperación al final .

Suponiendo que en el Transformador estándar, Q y K calculan una matriz de atención propia con una forma de B×m×N×N. Entonces esta matriz se combina con V para calcular la autoatención, y las dimensiones 3 y 4 son N×N. Para SISR, las imágenes suelen tener una resolución alta , lo que da como resultado una N muy grande , y el cálculo de la matriz de autoatención consume una gran cantidad de memoria de GPU y costo computacional.
↓↓ Para resolver este problema, Q, K y V se segmentan en s segmentos iguales,
ya que los píxeles predichos en las imágenes de superresolución generalmente solo dependen de los vecinos locales en LR. Las dimensiones 3 y 4 de la última automatriz se convierten en N s × N s \frac{N}{s}\times\frac{N}{s}snorte×snorte, reduciendo significativamente la cantidad de computación y los costos de almacenamiento de GPU .

3 experimentos

configuración:

Entrenamiento: utilice DIV2K como conjunto de datos de entrenamiento.
Pruebas: se utilizaron cinco conjuntos de datos de referencia, incluidos Set5, Set14, BSD100, Urban100 y Manga109 .
Métricas: PSNR y SSIM se utilizan para evaluar el rendimiento de las imágenes SR reconstruidas.
lote: 16
parches: 48×48
mejora de la imagen: giro horizontal aleatorio y rotación de 90 grados
la tasa de aprendizaje inicial se establece en 2 × 1 0 − 4 2 × 10^{-4}2×1 04 se reduce a la mitad cada 200 épocas.
optimizador: Adam, impulso = 0,9.
Función de pérdida: la pérdida de L1
tarda unos dos días en entrenarse con una GPU GTX1080Ti.

La capa de reducción usa un núcleo de convolución de 1 × 1, y las otras usan una
capa de convolución de 3 × 3 con canales 32 y una capa de fusión con canales 64. La
reconstrucción de imágenes usa PixelShuffle
HFM con k = 2,
tres HPB y un
factor de división ET s = 4
ET k = 3
EMHA Atención de 8 cabezas

3.1 Comparaciones con modelos SISR avanzados

En la Tabla 1,

  1. Aunque el rendimiento de la línea base de EDSR es similar al de ESRT, sus parámetros son casi el doble que los de ESRT.
  2. Los parámetros de MAFFSRN y LatticeNet están cerca de ESRT, pero los resultados de ESRT son mejores que ellos.
  3. ESRT funciona mucho mejor en Urban100 que en otros modelos. Esto se debe a que hay muchos parches similares en cada imagen de este conjunto de datos. Por lo tanto, el LTB introducido en ESRT se puede utilizar para capturar las dependencias a largo plazo entre estos parches de imagen similares y conocer sus correlaciones para lograr mejores resultados.
  4. A una escala de ×4, la diferencia entre ESRT y otros modelos SR es más obvia . Esto se ve favorecido por la efectividad del ET propuesto, que puede aprender más de otros dominios claros.
  5. Todos estos experimentos verifican la eficacia de la ESRT propuesta .
    inserte la descripción de la imagen aquí

3.2 Comparación del Costo Computacional

En la Tabla 2,

  1. ESRT puede llegar hasta 163 capas y aún logra la segunda tasa de hash más baja (67.7G) entre estos métodos. Esto se beneficia de HPB y ARFB propuestos, que pueden extraer funciones útiles de manera efectiva y preservar información de alta frecuencia.
  2. Aunque ESRT usa la arquitectura Transformer, el tiempo de ejecución es muy corto . El aumento de tiempo en comparación con CARN e IMDN es perfectamente aceptable.
    inserte la descripción de la imagen aquí

3.3 Estudio de ablación

HPB:
la Tabla 3 explora la efectividad de los componentes HPB de ESRT .

  1. Comparando los Casos 1, 2 y 3, se puede observar que la introducción de HFM y CA puede mejorar efectivamente el rendimiento del modelo, pero aumentará los parámetros.
  2. Comparando los Casos 2 y 4, se puede ver que si se usa RB en lugar de ARFB, el resultado de PSNR solo aumenta en 0.01dB, pero el número de parámetros aumenta a 972K. Esto significa que ARFB puede reducir significativamente los parámetros del modelo mientras mantiene un rendimiento excelente .
  3. Todos estos resultados demuestran plenamente la necesidad y eficacia de estos módulos y mecanismos en HPB.

inserte la descripción de la imagen aquí

ET:
En la Tabla 4 se analiza la influencia de Transformador en el modelo .

  1. Si ESRT elimina el transformador, el rendimiento del modelo se reducirá significativamente de 32,18 dB a 31,96 dB. Esto se debe a que el Transformador introducido puede aprovechar al máximo la relación entre parches de imagen similares en la imagen.
  2. ET se compara con el Transformador original en la tabla. 1ET logra mejores resultados con menos parámetros y consumo de memoria GPU (1/4). Los experimentos verifican completamente la efectividad del ET propuesto.
  3. A medida que aumenta el número de extraterrestres, el rendimiento del modelo mejorará aún más. Sin embargo, vale la pena señalar que los parámetros del modelo y la memoria de la GPU también aumentan con la cantidad de ET. Por lo tanto, para lograr un buen equilibrio entre el tamaño del modelo y el rendimiento, solo se usa un ET en el ESRT final.

Para verificar la efectividad y generalización de la ET propuesta , se introduce ET en RCAN. Los autores solo usan una versión pequeña de RCAN (el número de grupos residuales se establece en 5) en el experimento y agregan ET antes de la parte de reconstrucción. Puede verse en la Tabla 5 que el rendimiento del modelo "RCAN/2+ET" es cercano o incluso mejor que el del RCAN original con menos parámetros. Esto demuestra aún más la eficacia y la generalidad de ET, que se puede trasladar fácilmente a cualquier modelo SISR existente para mejorar aún más el rendimiento del modelo.
inserte la descripción de la imagen aquí

3.4 Súper resolución de imagen real

ESRT en comparación con algunos modelos SR livianos clásicos en un conjunto de datos de imágenes reales ( RealSR ). De acuerdo con la Tabla 6, se puede observar que ESRT logra mejores resultados que IMDN. Además, ESRT supera a LK-KPN en ×4, que está especialmente diseñado para tareas prácticas de SR. Este experimento verifica aún más la efectividad de ESRT en imágenes reales.

inserte la descripción de la imagen aquí

3.5 Comparación con SwinIR

EMHA en ESRT es similar a la capa Swin-Transformer de SwinIR . Sin embargo, SwinIR usa ventanas deslizantes para resolver el problema de computación alta de Transformer , mientras que ESRT usa factores de división para reducir el consumo de memoria de la GPU . Según la Tabla 7, en comparación con SwinIR, ESRT logra un rendimiento cercano con menos parámetros y memoria GPU. Vale la pena señalar que SwinIR utiliza un conjunto de datos adicional ( Flickr2K ) para el entrenamiento, que es la clave para mejorar aún más el rendimiento del modelo. Para una comparación justa con métodos como IMDN, los autores no utilizaron este conjunto de datos externo en este trabajo.

inserte la descripción de la imagen aquí

4. Conclusión

En este artículo, se propone un transformador de superresolución eficiente (ESRT) novedoso para SISR.

  1. es una CNN和Transformer结合estructura híbrida.
  2. ESRT primero utiliza una red troncal CNN (LCB) liviana para extraer características profundas , y luego usa una red troncal Transformer (LTB) liviana para modelar dependencias a largo plazo entre regiones locales similares en imágenes .
  3. En LCB, se propone un bloque de alta preservación (HPB) para reducir el costo computacional y preservar la información de alta frecuencia a través de un módulo de filtro de alta frecuencia (HFM) especialmente diseñado y un bloque de características residuales adaptables (ARFB).
  4. En LTB, un transformador eficiente (ET) está diseñado para mejorar la representación de características con una huella de memoria de GPU más baja con la ayuda de la atención multicabezal eficiente (EMHA) propuesta.
  5. Extensos experimentos muestran que ESRT logra el mejor equilibrio entre el rendimiento del modelo y el costo computacional.

Finalmente, les deseo a todos éxito en la investigación científica, buena salud y éxito en todo ~

Supongo que te gusta

Origin blog.csdn.net/qq_45122568/article/details/124635706
Recomendado
Clasificación