盲图像超分退化模型

本文提出了一种实用的退化模型来模拟真实世界的退化情况,它包含了更多的退化作用 (多种模糊,多种噪声,多种下采样等等),能更好地模拟真实世界的退化作用。 

为图像盲超分学习通用的退化模型

论文名称:Designing a Practical Degradation Model for Deep Blind Image Super-Resolution (ICCV 2021)

论文地址: https://arxiv.org/pdf/2103.14006.pdf

盲超分任务介绍

作为基本的 low-level 视觉问题,单图像超分辨率 (SISR) 越来越受到人们的关注。SISR 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。顾名思义,SISR 任务需要两张图片,一张高分辨率的 HR 图和一张低分辨率的 LR 图。超分模型的目的是根据后者生成前者,而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为:低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的,这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。 也就是说,这个下采样的模糊核是预先定义好的。但是,在实际应用中,这种退化作用十分复杂,不但表达式未知,而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时,这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务 (Blind Super Resolution) 。

大多数盲超分方法所基于的退化模型靠谱吗?

上式1是大多数盲超分方法所基于的退化模型,如上文所述,为了数学上表达的方便,通常假设为:

所以,我们假设的退化模型与实际的退化模型之间其实是存在着一个非常大的 mismatch 的,这个 mismatch 也就是导致 Blind SISR 模型性能下降的原因。正是因为真实世界的退化模型没法准确建模,所以目前没有任何一个盲超分模型可以轻易且很好地应用于真实世界超分的场景。本文建模了一个实用的退化模型,它不同于真实世界的退化模型,但是这样做的价值是相比于上文为了数学上表达的方便而简单地假设一个超分模型,本文的做法对领域的发展迈进了一步。 

实用的退化模型设计思路

本文设计了一个实用的退化模型,来模拟上述实际情况,它包含了更多的退化作用,以更好地模拟真实世界的退化作用。在介绍新的实用的退化模型之前,需要阐述以下事实。

  1. 根据传统的退化模型,影响真实图像退化的主要因素有三个,即模糊 (Blur)、下采样 (Downsampling) 和噪声 (Noise)。

  2. 由于 LR 和 HR 图像都可能有噪声和模糊,所以没有必要像在传统退化模型中那样采用模糊→下采样→噪声的流水线来生成 LR 图像。

  3. 传统退化模型的模糊核空间应该随着尺度而变化。

  4. 虽然双三次下采样建模盲超分问题是不够的,但它确实很好地数据增强的手段。

基于第1点, 提高退化模型实用性的一个直接方法是使这三个退化空间尽可能大,尽可能接近真实。

基于第2点,我们可以打乱这三个退化作用的顺序,来进一步扩展退化空间。

基于第4点,对于 scale factor 比较大 (等于4) 时,可以先双三次或者双线性下采样,再施加模糊核等退化作用。

实用的退化模型:模糊

本文在施加模糊退化作用时,既从 HR 空间,又从 LR 空间施加模糊。在传统的盲超分退化模型中,一般是 HR 图片先与模糊核进行卷积。但是,真实的 LR 图片可能是模糊的,因此在 LR 空间中模拟这种模糊是一种可行的方法。使用的模糊核包括各向同性模糊核和各向异性模糊核, 这样做可以大大扩展模糊退化空间。

实用的退化模型:下采样

本文在施加下采样退化作用时,使用了以下几种方法:

实用的退化模型:噪声

除了常用的加性高斯白噪声 (AWGN),作者还添加了 JPEG 压缩噪声和相机传感器噪声。

在现代数码相机中,通过图像信号处理 (ISP) Pipeline 传递原始传感器数据来获得输出图像。

如果 ISP 过程没有执行去噪的过程,则处理后的传感器噪声将通过引入非高斯噪声而使得输出图像恶化。

为了合成这种噪声,作者首先通过反向 ISP Pipeline 从 RGB 图像获得原始图像,然后再将噪声添加到合成的原始图像,再通过正向 ISP Pipeline 重建含噪声的 RGB 图像。根据 Adobe Digital Negative (DNG) 规范,正向 ISP Pipeline 包括去马赛克 (Demosaicing)、曝光补偿 (Exposure compensation)、白平衡 (White balance)、相机到 XYZ (D50) 色彩空间转换、XYZ (D50) 到线性 RGB 色彩空间转换、色调映射 (Tone mapping) 和伽马校正 (Gamma correction)。

接下来将以上几种退化模型 (模糊,噪声,下采样) 随机打乱顺序,以进一步扩大退化模型的空间。下图1展示了本文提出的实用退化模型。对于 HR 图像,我们可以通过混合退化操作和设置不同的退化参数来生成具有大范围退化作用的 LR 图像。 

图1:实用退化模型

对于实用退化模型的讨论

上面所介绍的实用退化模型主要是为了合成退化的 LR 图片,其最直接的应用是根据成对的 LR/HR 图像来训练盲超分模型。实用退化模型的好处是它可以轻松地得到非常多成对的退化 LR 图片, 不需要再费力地收集,也不需要忍受不成对训练数据的不对准问题。

实用退化模型可以产生一些在真实世界场景中很少发生的退化情况,而这仍然可以提高盲超分模型的泛化能力。且它可以通过改变退化参数从而容易地得到多种退化模型。

训练盲超分模型

为了证明本文提出的退化模型的优势,作者采用了广泛使用的 ESRGAN 网络,并用新的退化模型产生的合成LR/HR 成对图像对其进行训练。遵循 ESRGAN,作者首先训练 PSNR-oriented 的 BSRNet 模型,然后训练 Quality-oriented 的 BSRGAN 模型。由于 PSNR-oriented 的 BSRNet 模型由于 Pixel-wise Average 问题而倾向于产生过于平滑的结果,因此 Quality-oriented 的模型更适合实际应用。

与 ESRGAN 相比,BSRGAN 在几个方面进行了修改。首先,作者使用一个略有不同的 HR 图像数据集,其中包括 DIV2K,Flick2K,WED 和来自 FFHQ 的2000张人脸图像,以捕捉图像先验。这样做的原因是 BSRGAN 的目标是解决通用盲图像超分辨率问题,除了退化先验,图像先验也有助于超分辨率的成功。其次,BSRGAN 使用的图片 Patch size 更大,是72×72大小的。原因是实用的退化模型可以产生严重退化的 LR 图像,并且更大的 Patch size 可以使深度模型能够捕捉更多信息以进行更好的恢复。然后是损失函数的权重进行了微调,优化器使用 Adam,初始学习率 1e-5,Batch size 设置为48。

BSRGAN 实验结果

目前的盲超分方法主要是在一些人工合成的数据和几张真实世界图片上评估性能。比如,IKC 的评估数据集是模糊,双三次下采样的退化 LR 图和两张真实世界图片;Kernel-GAN 的评估数据集是合成的 DIV2KRK 数据集和两张真实世界图片。我们仍然缺乏具有各种模糊和噪声退化的真实 LR 图像数据集。

为了解决这个问题,作者建立了两个数据集,DIV2K4D 数据集和 RealSRSet 数据集

DIV2K4D 数据集包含四个子数据集,总共400个图像,从具有四种不同退化类型的100个DIV2K验证图像生成。RealSRSet 数据集是由20张真实图像组成,这些图像有的是从互联网上下载的,有的是从已有的测试集中选择出来的。DIV2K4D 的4种退化类型包括:(a) 通常使用的双三次退化。(b) 各向异性高斯模糊,并进行 scale=4 的最近邻下采样。(c) 各向异性高斯模糊,并进行 scale=2 的最近邻下采样,再进行 scale=2 的双三次下采样,最后进行 quality factor 位于[41, 90] 的 JPEG Compression。(d) 本文提出的退化模型。

这两个评估数据集的一些样例如下图2所示,其中左侧是 DIV2K4D 数据集,右侧是 RealSRSet 数据集,左侧数据集的第2,3,4行分别是退化类型(b),(c),(d)的退化 LR 图。

图2:评估数据集的一些样例,左侧是 DIV2K4D 数据集,右侧是 RealSRSet 数据集,左侧数据集的第2,3,4行分别是退化类型(b),(c),(d)的退化 LR 图

DIV2K4D 数据集实验结果

不同方法在 DIV2K4D 数据集上的 PSNR 和 LPIPS 结果如图3所示。LPIPS 用于测量感知质量,并且较低的 LPIPS 值意味着超分辨率图像在感知上更类似于真实情况。如图3所示,对于 (a) 类型的退化 (双三次下采样),RRDB 和 ESRGAN 表现良好,但在非双三次退化方面 (b), (c), (d) 类型的退化表现不佳,因为他们是用双三次退化进行训练的。第二,FSSR-DPED, FSSR-JPEG, RealSR-DPED 和 RealSR-JPEG 在 LPIPS 指标上超过了 RRDB 和 ESRGAN,因为它们训练数据集的退化作用更加复杂。对于退化类型 (b),IKC 获得较好的 PSNR 结果,而RealSR-DPED 获得了最好的 LPIPS 结果,因为 RealSR-DPED 训练时的退化作用更加类似。相比之下,本文提出的 BSRNet 实现了最好的总体 PSNR 结果,而 BSRGAN 得到了最好的总体 LPIPS 结果。图3:不同方法在 DIV2K4D 数据集上的 PSNR 和 LPIPS 结果

如下图4所示为根据 DIV2K4D 数据集不同方法的可视化结果。可以发现,IKC 和 RealSR-JPEG 未能去除噪声和恢复锐边。另一方面,FSSR-JPEG 可以产生清晰的图像,但也会引入一些伪像。相比之下,本文提出的 BSRNet 和BSRGAN 比其他方法产生更好的视觉效果。图4:DIV2K4D 数据集不同方法的可视化结果    whaosoft aiot http://143ai.com  

RealSRSet 数据集实验结果

由于 RealSRSet 数据集没有 GT 图,所以没法计算数值的评估指标。这部分使用无参考图像质量评价 (IQA) 方法 NIQE,NRQM 和 PI,结果如下图5所示。从图4的观察来看,BSRGAN 未能显示出有希望的结果。但是如图5所示,BSRGAN 比其他方法产生更好的视觉效果。比如,对于第一行结果,BSRGAN 可以消除未知的相机噪声。对于第三行结果,BSRGAN 可以消除复杂的噪声,并且产生锐利的边缘和精细的细节。

相比之下,FSSR-JPEG,RealSR-DPED 和 RealSR-JPEG 会产生一些高频伪像,但具有比 BSRNet 更好的量化结果。这表明其实无参考 IQA 的指标并不总能够反映出生成结果的视觉质量。作者进一步认为,超分任务的 IQA 度量方式应该与退化作用相关,这就留给未来的工作了。

总结

本文提出了一种实用的退化模型来模拟真实世界的退化情况,它包含了更多的退化作用 (多种模糊,多种噪声,多种下采样等等),以更好地模拟真实世界的退化作用。各种退化空间随机打乱顺序,通过混合退化操作和设置不同的退化参数来生成具有大范围退化作用的 LR 图像。基于新的实用的退化模型生成的合成数据,作者训练了图像盲超分辨率模型 BSRNet 和 BSRGAN。在合成和真实图像数据集上的实验表明,BSRNet 和 BSRGAN 对被各种退化破坏的图像表现良好。这项工作为解决实际应用中的盲超分问题提供了一种新途径。

猜你喜欢

转载自blog.csdn.net/qq_29788741/article/details/131117542