CVPR 2023 | Superresolución de imagen, combinada con modelo de difusión/GAN/optimización de implementación, tareas de bajo nivel, serie AIGC visual

1、Activación de más píxeles en el transformador de superresolución de imagen

Los métodos basados ​​en transformadores han demostrado un rendimiento impresionante en tareas de visión de bajo nivel, como la superresolución de imágenes. El potencial de Transformer todavía está subutilizado en las redes existentes. Para activar más píxeles de entrada para una mejor reconstrucción, se propone un nuevo Transformador de Atención Híbrido (HAT). Combina la atención del canal y los esquemas de autoatención basados ​​en ventanas simultáneamente, aprovechando al máximo sus respectivas ventajas, a saber, la capacidad de explotar estadísticas globales y sólidas capacidades de ajuste local.

Además, para agregar mejor la información de las ventanas cruzadas, se introduce un módulo de atención cruzada superpuesto para mejorar la interacción entre las características de las ventanas adyacentes. En la fase de entrenamiento, se adopta la misma estrategia de preentrenamiento de tareas para explotar el potencial del modelo para una mayor mejora. Extensos experimentos demuestran la efectividad del módulo propuesto, y el modelo se amplía aún más para mostrar que el desempeño de esta tarea se puede mejorar en gran medida. El método general supera a los métodos de última generación existentes en más de 1dB en PSNR.

https://github.com/XPixelGroup/SOMBRERO

38663e8109517ecc3fc63e6bd1f37749.png

2. Modelos probabilísticos de difusión de eliminación de ruido para superresolución de imagen robusta en la naturaleza

Los modelos de difusión han mostrado buenos resultados en superresolución de una sola imagen y otras tareas de traducción de imagen a imagen. A pesar de este éxito, no superan a los modelos GAN de última generación en la tarea de súper resolución ciega más desafiante, donde la distribución de las imágenes de entrada no es uniforme y se desconoce la degradación.

Este artículo presenta un modelo SR3+ de superresolución ciega basado en la difusión, para el cual el entrenamiento autosupervisado se combina con el aumento condicionado por ruido durante el entrenamiento y las pruebas. El rendimiento de SR3+ es mucho mejor que SR3. Supera a RealESRGAN cuando se entrena con los mismos datos.

0c16e3ead39f885bfef097a315e7a57f.png

3. Modelos de difusión implícita para superresolución continua

La superresolución de imagen (SR) ha recibido una atención cada vez mayor debido a su amplia gama de aplicaciones. Sin embargo, los métodos SR actuales a menudo sufren de suavizado excesivo y artefactos, mientras que la mayoría de los trabajos se limitan a aumentos fijos. Este artículo presenta un modelo de difusión implícito (IDM) para la superresolución de imágenes continuas de alta fidelidad.

IDM emplea un marco unificado de extremo a extremo que combina representaciones neuronales implícitas y modelos de difusión de eliminación de ruido, donde las representaciones neuronales implícitas se emplean durante la decodificación para aprender representaciones de resolución continua. Además, se diseña un mecanismo de escala adaptativo, que incluye una red de escala de baja resolución (LR) y un factor de escala que ajusta la resolución y, en consecuencia, escala la información LR y las características generadas en la salida final, por lo tanto Adaptar el modelo a continuo requisitos de resolución. Extensos experimentos confirman la eficacia de IDM y demuestran su rendimiento superior a las obras de arte anteriores. El código está en https://github.com/Ree1s/IDM

25efea52433adae753d787aeae9e61d6.png

4、Superresolución de imagen única orientada a la percepción usando estimación objetiva óptima

Las redes de superresolución de imagen única (SISR) entrenadas con pérdidas perceptivas y adversarias brindan salidas de alto contraste en relación con las redes entrenadas con pérdidas guiadas por distorsión, como L1 o L2. Sin embargo, se ha demostrado que las formas localmente distintas en las imágenes no se pueden recuperar con precisión utilizando una sola pérdida de percepción, lo que a menudo da como resultado artefactos indeseables o detalles no naturales. Por lo tanto, se han probado varias combinaciones de pérdidas, como las pérdidas de percepción, de confrontación y de distorsión, pero a menudo es difícil encontrar la combinación óptima.

Este documento propone un marco SISR novedoso aplicado a cada región para la generación óptima de objetos para generar resultados razonables en la región general de salida de alta resolución. Específicamente, el marco consta de dos modelos: un modelo predictivo para inferir el mapa objetivo óptimo dada una entrada de baja resolución (LR) y un modelo generativo para generar la salida SR correspondiente. El modelo generativo se entrena en función de la trayectoria del objeto propuesto, que representa un conjunto básico de objetos, lo que permite que una sola red aprenda varios resultados de SR correspondientes a las pérdidas combinadas en la trayectoria.

En cinco puntos de referencia, los resultados experimentales muestran que el método propuesto supera a los métodos de SR basados ​​en la percepción de última generación en las métricas LPIPS, DISTS, PSNR y SSIM. Los resultados visuales también demuestran la superioridad del método en la reconstrucción guiada por percepción. El código y los modelos están en https://github.com/seunghosnu/SROOEe40f1cf6ef1edb8839e190c64232c0f9.png

5、Aprendizaje de escasez estructurada para superresolución de video eficiente

El alto costo computacional de los modelos de superresolución de video (VSR) existentes dificulta su implementación en dispositivos con recursos limitados, como teléfonos inteligentes y drones. Los modelos VSR existentes contienen una gran cantidad de parámetros redundantes, lo que ralentiza la eficiencia de la inferencia. Para podar estos parámetros sin importancia, se desarrolla un esquema de poda estructurado llamado Structural Sparse Learning (SSL) basado en las propiedades de VSR.

SSL diseña esquemas de poda para varios componentes clave del modelo VSR, incluidos bloques residuales, redes recurrentes y redes de muestreo ascendente. Específicamente, se diseña un esquema de Residual Sparse Connection (RSC) para los bloques residuales de redes recurrentes para liberar la limitación de poda y preservar la información de recuperación. Para la red de muestreo ascendente, se diseña un esquema de barajado y poda de píxeles para garantizar la precisión de la transformación espacial del canal de características. También se observa que el error de poda se amplifica a medida que el estado oculto se propaga a lo largo de la red recurrente. Para paliar este problema, se ha diseñado un ajuste fino temporal (TF). Extensos experimentos demuestran que SSL supera significativamente a los métodos recientes tanto cuantitativa como cualitativamente. El código está en https://github.com/Zj-BinXia/SSL

c1b300ccd5b7ee9713a375f07c153f1c.png

6, operador neuronal de superresolución

Se propone un operador neuronal de superresolución (SRNO), que puede resolver el escalado arbitrario de imágenes de alta resolución (HR) a partir de sus contrapartes de baja resolución (LR). Al tratar los pares de imágenes LR-HR como funciones continuas aproximadas utilizando diferentes tamaños de cuadrícula, SRNO aprende un mapeo entre los espacios de funciones correspondientes.

En comparación con trabajos previos sobre SR continuo, las características clave de SRNO son: 1) La integración del núcleo en cada capa se realiza de manera eficiente mediante la atención de tipo Galerkin, que tiene propiedades no locales en el dominio espacial, lo que facilita el procesamiento continuo sin cuadrícula. ) La estructura de atención multicapa permite actualizaciones dinámicas de base latente, lo cual es muy importante para los problemas de SR para "fantasear" información de alta frecuencia de imágenes LR.

Los resultados experimentales muestran que SRNO supera a los métodos SR continuos existentes en términos de precisión y tiempo de ejecución. El código está en https://github.com/2y7c3/Super-Resolution-Neural-Operator

008b50c6aaaeef59425ead7f230f5d5d.png

7、Hacia una superresolución de video eficiente y de alta calidad a través del sobreajuste de datos espacio-temporales

Se propone un nuevo método eficiente y de alta calidad para escalar la resolución de video, que utiliza información espacio-temporal para segmentar con precisión los videos en bloques, manteniendo así la cantidad de bloques y el tamaño del modelo al mínimo. Al implementar el modelo en teléfonos móviles comerciales, los resultados experimentales muestran que el método logra una súper resolución de video en tiempo real con alta calidad de video. En comparación con el método de última generación, logramos una velocidad de transmisión de 28 fps, 41,6 PSNR, una velocidad 14 veces más rápida y una calidad 2,29 dB mayor en la tarea de escalado de resolución de video en tiempo real. Se lanzará el código: https://github.com/coulsonlee/STDO-CVPR2023

86ac31f275d8e62c760ee1e55cf51a27.png

Preste atención a la cuenta oficial [Aprendizaje automático y creación de generación de IA], le esperan cosas más emocionantes para leer

Explicación simple de difusión estable: Interpretación del modelo de difusión potencial detrás de la tecnología de pintura AI

¡Explicación detallada de ControlNet, un algoritmo de generación de pintura AIGC controlable! 

GAN clásico tiene que leer: StyleGAN

ec5390bf2dc73a8e7efcda377ad9ebe1.png ¡Haz clic en mí para ver los álbumes de la serie de GAN~!

Una taza de té con leche, ¡conviértete en la frontera de la visión AIGC+CV!

¡El último y más completo resumen de 100! Generar modelos de difusión Modelos de difusión

ECCV2022 | Resumen de algunos trabajos sobre la generación de redes de confrontación GAN

CVPR 2022 | Más de 25 direcciones, los últimos artículos de 50 GAN

 ICCV 2021 | Resumen de los artículos de GAN sobre 35 temas

¡Más de 110 artículos! CVPR 2021 peinado de papel GAN ​​más completo

¡Más de 100 artículos! El peinado de papel GAN ​​más completo de CVPR 2020

Desmantelando la nueva GAN: representación desacoplada MixNMatch

StarGAN Versión 2: Generación de imágenes de diversidad multidominio

Descarga adjunta | Versión en chino de "Aprendizaje automático explicable"

Descarga adjunta | "Algoritmos de aprendizaje profundo de TensorFlow 2.0 en la práctica"

Descarga adjunta | "Métodos Matemáticos en Visión por Computador" compartir

"Una revisión de los métodos de detección de defectos superficiales basados ​​en el aprendizaje profundo"

Una encuesta de clasificación de imágenes de disparo cero: una década de progreso

"Una encuesta de aprendizaje de pocos disparos basada en redes neuronales profundas"

El "Libro de los ritos · Xue Ji" tiene un dicho: "Aprender solo sin amigos es solitario e ignorante".

¡Haga clic en una taza de té con leche y conviértase en el vacilante de la frontera de la visión AIGC+CV! , ¡únete  al planeta de la creación generada por IA y  el conocimiento de la visión por computadora!

Supongo que te gusta

Origin blog.csdn.net/lgzlgz3102/article/details/131255656
Recomendado
Clasificación