Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

Hshmat Sahak, New York University, USA, arXiv, Cited:1, Code:无, Paper

在这里插入图片描述

1. 前言

扩散模型在单图像超分辨率和其他图像到图像的转换任务上显示出了有希望的结果。尽管取得了成功,但在更具挑战性的盲超分辨率任务中,它们的表现并没有超过最先进的GAN模型,在该任务中,输入图像分布不均,退化程度未知。本文介绍了SR3+,一种基于扩散的盲超分辨率模型,建立了一种新的超分辨率模型。为此,我们提倡将自我监督训练与复合的、参数化的退化相结合,用于自我监督训练,并在训练和测试期间增加噪声条件。有了这些创新、大规模卷积架构和大规模数据集,SR3+大大优于SR3。当在相同的数据上训练时,它的表现优于RealESRGAN,DRealSR。我们FID得分为36.82,而他们是37.22,这在更大的模型和更大的训练集中进一步减小到32.37的FID.

2. 整体思想

一篇对SR3改进的论文,主要为SR3 + 高阶退化 + 噪声调节增强,SR3的一作是共同作者,名副其实自己改进自己。

3. 方法

SR3+将简单的卷积架构和新颖的训练过程与两项关键创新相结合。在数据挖掘训练管道中使用参数化退化,在低分辨率(LR)训练输入的生成中有更复杂的破坏。我们将这些退化与噪声调节增强相结合,首次用于提高级联扩散模型的鲁棒性。我们发现,对于零样本应用,噪声调节增强在测试时也是有效的。SR3+的架构是SR3中使用的卷积变体,因此在图像分辨率和纵横比方面更灵活。在训练过程中,它通过对高分辨率图像进行下采样来获得LR-HR图像对,以生成相应的低分辨率输入。鲁棒性是通过两个关键增强来实现的,即训练期间的复合参数退化(具体参考Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data)和训练期间和测试时的噪声调节增强(Cascaded Diffusion Models for High Fidelity Image Generation)。训练阶段对添加的条件图片进行前向扩散,使其包含噪声,让模型鲁棒性更强;测试阶段这个 t t t就是超参数了,生成的质量也不同。

3.1 网络结构

SR3+使用UNet架构,但没有用于SR3的自注意层。虽然自我注意对图像质量有积极影响,但它使不同图像分辨率和纵横比的泛化变得非常困难,也就是说难以处理任意尺寸大小的图像。我们还采用了Efficient U-Net (Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding),以提高训练速度。

4. 实验

SR3+在多个数据集上采用降级和噪声调节增强相结合的方法进行训练,并将zero-shot应用于测试数据。我们使用消融来确定不同形式的增强、模型大小和数据集大小的影响。在这里,我们关注的是放大倍数为4倍的盲超分辨率任务。对于baseline,我们使用SR3和之前的盲超分辨率技术,即RealESRGAN。

与SR3一样,LR输入使用双三次插值上采样4倍。SR3和SR3+的输出样本是使用具有256个去噪步骤的DDPM祖先采样获得的。为了简单起见且为了使用连续的时间步长进行训练,我们使用了引入的余弦对数SNR策略。

训练:为了与真实ESRGAN进行公平比较,我们首先在用于训练真实ESRGAN的数据集上训练SR3+;即DF2K+OST,Div2K(800张图像)、Flick2K(2650张图像)和OST300(300张图像)的组合。为了探索缩放的影响,我们还对6100万张图像的大型数据集进行了训练,将内部图像集合与DF2K+OST相结合。在训练过程中,按照Real ESRGAN,我们为每个图像提取一个随机的400×400裁剪,然后应用退化pipeline。然后将降级图像的大小调整为100×100。然后使用双三次插值将LR图像上采样到400×400,从中裁剪出256×256图像用于训练64×64→ 256×256任务。由于该模型是卷积的,因此我们可以在测试时将其应用于任意分辨率和纵横比。SR3+和所有消融都是在具有相同超参数的相同数据上训练的。注意,当去除退化和噪声调节增强时,SR3+降低为SR3。所有moedl都经过1.5M步的训练,对于DF2K+OST上训练的模型,使用256的批量大小,否则使用512。我们还考虑了两种型号,重量分别为40M和400M。较小的模型可以直接与Real ESRGAN进行比较,因为Real ESRGAN也有大约40M的参数。较大的模型暴露了模型缩放的影响。

测试:如上所述,我们专注于zero_shot,以测试与用于训练的数据集无关的数据集。在所有实验和消融中,我们使用RealSRv3和DRealSR数据集进行评估。RealSR有400个配对的低分辨率和高分辨率图像,我们从中计算出每个图像对25个随机但对齐的64×64和256×256裁剪。这就产生了一个由10000个图像对组成的固定测试集。DRealSR包含超过10000个图像对,因此我们为10000个随机图像提取64×64和256×256中心裁剪。

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43800752/article/details/130118487