Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data

Xintao Wang, Applied Research Center (ARC), Tencent PCG, ICCV2021, Cited:269, Code, Paper

1. 前言

尽管已经在盲超分辨率方面进行了许多尝试来恢复具有未知和复杂退化的低分辨率图像，但它们仍然远远不能解决一般的真实世界退化图像。在这项工作中，我们将强大的ESRGAN扩展到一个实际的恢复应用程序（即Real ESRGAN），该应用程序使用纯合成数据进行训练。具体而言，引入了高阶退化建模过程，以更好地模拟复杂的现实世界退化。我们还考虑了合成过程中常见的振铃和过冲伪影。此外，我们使用了具有频谱归一化的U-Net鉴别器来提高鉴别器的能力并稳定训练动态。广泛的比较表明，它在各种真实数据集上的视觉性能优于先前的工作。

2. 整体思想

嗯。。使用更复杂的数据集吧。训练的好效果一定比一阶降质的好啊。

3. 方法

通过合成具有更实际退化过程的训练对来恢复一般的真实世界LR图像。真正复杂的退化通常来自不同退化过程的复杂组合，如相机的成像系统、图像编辑和互联网传输。例如，当我们用手机拍照时，照片可能会有几种退化，如相机模糊、传感器噪声、锐化伪影和JPEG压缩。然后，我们进行一些编辑并上传到社交媒体应用程序，这会引入进一步的压缩和不可预测的噪音。当图像在互联网上被多次共享时，上述过程变得更加复杂。这促使我们将经典的“一阶”退化模型扩展到现实世界退化的“高阶”退化建模，即退化是用几个重复的退化过程建模的，每个过程都是经典退化模型。根据经验，我们采用了二阶退化过程，以在简单性和有效性之间取得良好的平衡。高阶退化建模更灵活，并试图模拟真实的退化生成过程。我们在合成过程中进一步加入了sinc滤波器，以模拟常见的振铃和过冲伪影。

盲SR旨在从低分辨率的未知和复杂退化恢复高分辨率图像。在合成低分辨率输入时，通常采用经典的退化模型。通常，先对真实图像 $y$ 与模糊核 $k$ 进行卷积，然后进行带比例因子的下采样操作。通过添加噪声 $n$ 得到低分辨率 $x$ 。最后还采用JPEG压缩，因为JPEG在真实图像中被广泛使用。

Blur: 我们通常将模糊退化建模为带有线性模糊滤波器(内核)的卷积。各向同性和各向异性高斯滤波器是常见的选择。
Noise: 我们考虑两种常用的噪声类型:1)加性高斯噪声和2)泊松噪声。
Resize (Downsampling): 在sr中，下采样是合成低分辨率图像的基本操作。一般来说，我们同时考虑下采样和上采样，即调整大小操作。有几种调整大小的算法-最近邻插值，面积调整，双线性插值，双三次插值。
JPEG compression: PEG压缩是一种常用的数字图像有损压缩技术。它首先将图像转换为YCbCr颜色空间，并对色度通道进行下采样。然后将图像分割为8 × 8块，每个块进行二维离散余弦变换(DCT)，然后对DCT系数进行量化。

3.1 高阶退化模型

在这里插入图片描述

振铃伪影经常出现在图像中锐利过渡附近的伪边缘。它们在视觉上看起来像带子或“幽灵”。超调伪影通常与振铃伪影结合在一起，它们表现为边缘过渡时增加的跳变。产生这些伪影的主要原因是信号在没有高频的情况下是带宽受限的。锐化或压缩通常会引起。 $s in c$ 滤波器切断高频，为训练对合成振铃和超调伪影。我们在两个地方采用了 $s in c$ 滤波器:模糊处理和合成的最后一步。最后的 $s in c$ 过滤器和JPEG压缩的顺序是随机交换的，以覆盖更大的退化空间，因为一些图像可能首先过度锐化(有超调工件)，然后进行JEPG压缩。