Modèles probabilistes de diffusion de débruitage pour une super-résolution d'image robuste dans la nature

Modèles probabilistes de diffusion de débruitage pour une super-résolution d'image robuste dans la nature

Hshmat Sahak, Université de New York, États-Unis, arXiv, Cité :1, Code :无, Papier

insérez la description de l'image ici

1. Introduction

Les modèles de diffusion ont montré des résultats prometteurs sur la super-résolution d'image unique et d'autres tâches de traduction d'image à image. Malgré leur succès, ils ne surpassent pas les modèles GAN de pointe sur la tâche de super-résolution aveugle plus difficile, où les images d'entrée sont inégalement réparties et le degré de dégradation est inconnu. Cet article présente SR3+, un modèle de super-résolution aveugle basé sur la diffusion, et construit un nouveau modèle de super-résolution. À cette fin, nous préconisons de combiner une formation auto-supervisée avec des dégradations paramétriques composées pour une formation auto-supervisée et un conditionnement de bruit augmenté pendant la formation et les tests. Avec ces innovations, des architectures convolutives à grande échelle et des ensembles de données à grande échelle, SR3+ surpasse largement SR3. Il surpasse RealESRGAN, DRealSR lorsqu'il est formé sur les mêmes données. Notre score FID est de 36,82, tandis que le leur est de 37,22, qui est encore réduit à un FID de 32,37 avec un modèle plus grand et un ensemble d'entraînement plus grand.

2. Pensée holistique

Un article sur l'amélioration de SR3, principalement SR3 + dégradation d'ordre élevé + amélioration de l'ajustement du bruit.Le premier travail de SR3 est un co-auteur, et il est digne de ce nom pour s'améliorer.

3. Méthode

SR3 + combine une architecture convolutive simple et une nouvelle procédure de formation avec deux innovations clés. Utilisation de la dégradation paramétrique dans les pipelines de formation à l'exploration de données avec une corruption plus complexe dans la génération d'entrées de formation à basse résolution (LR). Nous combinons ces dégradations avec des améliorations de conditionnement du bruit pour la première fois afin d'améliorer la robustesse des modèles de diffusion en cascade. Nous avons constaté que pour les applications sans prise de vue, l'amélioration du conditionnement du bruit est également efficace au moment du test. L'architecture de SR3+ est une variante de la convolution utilisée dans SR3 et donc plus flexible en termes de résolution d'image et de rapport d'aspect. Pendant la formation, il obtient des paires d'images LR-HR en sous-échantillonnant des images haute résolution pour générer des entrées basse résolution correspondantes. La robustesse est obtenue grâce à deux améliorations clés, la dégradation des paramètres composites pendant la formation (voir Real-ESRGAN : Formation de la super-résolution aveugle dans le monde réel avec des données synthétiques pures pour plus de détails ) et les améliorations du conditionnement du bruit pendant la formation et au moment du test (Cascaded Diffusion Models for High Génération d'images de fidélité). Dans la phase de formation, la diffusion vers l'avant est effectuée sur les images conditionnelles ajoutées pour qu'elles contiennent du bruit, ce qui rend le modèle plus robuste ; dans la phase de test, cela ttT est l'hyperparamètre, et la qualité de la génération est également différente.

3.1 Structure du réseau

SR3+ utilise l'architecture UNet mais sans la couche d'auto-attention utilisée dans SR3. Bien que l'auto-attention ait un impact positif sur la qualité de l'image, elle rend très difficile la généralisation à différentes résolutions d'image et rapports d'aspect, c'est-à-dire qu'il est difficile de gérer des images de tailles arbitraires . Nous avons également adopté Efficient U-Net ( modèles de diffusion texte-image photoréalistes avec compréhension approfondie du langage ) pour améliorer la vitesse de formation.

4. Expérimentez

SR3 + est formé sur plusieurs ensembles de données avec une combinaison de dégradation et d'augmentation ajustée au bruit, et le tir zéro est appliqué aux données de test. Nous utilisons l'ablation pour déterminer l'impact de différentes formes d'augmentation, la taille du modèle et la taille de l'ensemble de données. Ici, nous nous concentrons sur la tâche de super-résolution aveugle avec un facteur de grossissement de 4. Pour la ligne de base, nous utilisons SR3 et une technique de super-résolution aveugle précédente, RealESRGAN.

Comme SR3, l'entrée LR est suréchantillonnée par un facteur de 4 en utilisant une interpolation bicubique. Les échantillons de sortie de SR3 et SR3 + sont obtenus à l'aide d'un échantillonnage d'ancêtre DDPM avec 256 étapes de débruitage. Pour plus de simplicité et pour l'entraînement avec des pas de temps consécutifs, nous utilisons la stratégie cosinus-log SNR introduite.

Formation : Pour une comparaison équitable avec le vrai ESRGAN, nous formons d'abord SR3 + sur les ensembles de données utilisés pour former le vrai ESRGAN; à savoir DF2K + OST, Div2K (800 images), Flick2K (2650 images) et OST300 (300 images) La combinaison. Pour explorer l'effet de la mise à l'échelle, nous nous entraînons également sur un grand ensemble de données de 61 millions d'images, combinant la collection d'images interne avec DF2K + OST. Pendant la formation, en suivant Real ESRGAN, nous extrayons un recadrage aléatoire de 400 × 400 pour chaque image, puis appliquons le pipeline de dégradation. Redimensionnez ensuite l'image dégradée à 100×100. L'image LR est ensuite suréchantillonnée à 400 × 400 à l'aide d'une interpolation bicubique, à partir de laquelle une image 256 × 256 est recadrée pour l'entraînement de la tâche 64 × 64 → 256 × 256. Puisque le modèle est convolutif, nous pouvons l'appliquer à des résolutions et des rapports d'aspect arbitraires au moment du test. SR3+ et toutes les ablations sont entraînées sur les mêmes données avec les mêmes hyperparamètres. Notez que SR3+ est réduit à SR3 lorsque les améliorations dégradées et ajustées au bruit sont supprimées . Tous les modèles sont entraînés pour des étapes de 1,5 million, en utilisant une taille de lot de 256 pour les modèles entraînés sur DF2K+OST , et 512 autrement . Nous avons également considéré deux modèles avec des poids de 40M et 400M. Le plus petit modèle peut être directement comparé à Real ESRGAN, car Real ESRGAN a également environ 40 millions de paramètres. Les modèles plus grands exposent les effets de la mise à l'échelle du modèle.

Test : Comme mentionné ci-dessus, nous nous concentrons sur zero_shot pour tester sur un jeu de données qui n'est pas lié à celui utilisé pour la formation. Dans toutes les expériences et ablations, nous utilisons les ensembles de données RealSRv3 et DRealSR pour l'évaluation. RealSR a 400 images appariées basse et haute résolution, à partir desquelles nous calculons 25 cultures aléatoires mais alignées 64 × 64 et 256 × 256 par paire d'images. Il en résulte un ensemble de test fixe de 10 000 paires d'images. DRealSR contient plus de 10 000 paires d'images, nous extrayons donc des recadrages centraux 64 × 64 et 256 × 256 pour 10 000 images aléatoires.

insérez la description de l'image ici

insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/qq_43800752/article/details/130118487
conseillé
Classement