Depth learning to use super-resolution presentation An Introduction to Super Resolution using Deep Learning

Depth learning to use super-resolution introduced

Depth study on the use of super-resolution detailed discussion of the various components, loss of function and metrics.

Introduction

Super-resolution (LR) image recovery High Resolution (HR) images from a given resolution process. Due to the small spatial resolution (i.e., size), or as a result of degradation (e.g. blurred), the image may have a "low-resolution." We can HR and LR images are related by the following equation:LR = degradation(HR)

Obviously, when applying downgrade function, we obtain from HR image LR image. However, we can turn it? In an ideal situation, yes! If we know the exact function of the downgrade, by its inverse image used in LR, we can restore the HR image.

However, there is a problem. We usually do not know the degradation function. Direct estimation of a reverse degradation function is ill-posed problem. Nevertheless, the depth of learning technologies have proven effective for super-resolution.

This blog describes how to use the supervised training method to perform super-resolution using deep learning. Also we discussed a number of important functions and loss metrics. Much comes from the reader is referred to the literature review .

Monitoring methodology

As described above, learning can be used to estimate the depth of a high resolution (HR) image at a given resolution (LR) images. As input, we can be regarded as supervised learning problem by using HR image as a target (or ground-truth) and LR image.

In this section, we grouped at various depths in a learning organization convolution layer. Before we get into these teams, we will introduce data preparation and convolution type. Loss function for the optimization model separately listed at the end of this blog.

Prepare data

A simple method is to reduce the data obtained LR HR data. This is usually done by adding blur or noise. Lower spatial resolution images may be such as by bilinear or bicubic interpolation scaling classic sampling methods . It may also be introduced by JPEG quantization artifacts and degrade image quality.

One thing to note is recommended that the HR image is stored as uncompressed (or lossless compression) format. This is to prevent the decrease in image quality caused by HR lossy compression, which may give sub-optimal performance.

Convolution type

In addition to the classic 2D Convolutions, you can also use several interesting variations in the network to improve results. Expansion ( Atrous ) may provide a more efficient winding of the field of view, the use of the information of the large distance apart. Skip connections , space pyramid pool and a dense block inspired combination of low-level and advanced features to improve performance.

( Source )

The figure referred to the number of network design strategies. You can refer to this article for more information. Learn about the depth of a primer used in different types of convolution, you can refer to this blog .

Group 1 - Pre upsampling

在该方法中,首先内插低分辨率图像以获得“粗略”高分辨率图像。现在,CNN用于学习从插值的低分辨率图像到高分辨率图像的端到端映射。直觉是,使用传统方法(例如双线性插值)首先对低分辨率图像进行上采样可能更容易,然后细化结果,而不是学习从低维空间到高维空间的直接映射。

对于使用此技术的某些型号,您可以参考本文的第5页优点在于,由于上采样是通过传统方法处理的,因此CNN仅需要学习如何细化粗略图像,这更简单。此外,由于我们在这里没有使用转置卷积,因此可能会绕过棋盘格然而,缺点是预定义的上采样方法可能放大噪声并导致模糊。

第2组 - 后上采样

在这种情况下,低分辨率图像被传递到CNN。使用可学习层在最后一层执行上采样。

该方法的优点在于在较低维空间中(在上采样之前)执行特征提取,因此降低了计算复杂度。此外,通过使用可学习的上采样层,可以端到端地训练模型。

第3组 - 逐步上采样

在上述组中,即使计算复杂度降低,也只使用单个上采样卷积。这使得大型缩放因子的学习过程更加困难。为了解决这个缺点,拉普拉斯金字塔SR网络(LapSRN)和Progressive SR(ProSR等工作采用了渐进式上采样框架在这种情况下的模型使用级联的CNN以在每个步骤以较小的缩放因子逐步重建高分辨率图像。

通过将困难的任务分解为更简单的任务,大大降低了学习难度并且可以获得更好的性能。此外,可以整合课程学习等学习策略,进一步降低学习难度,提高最终表现。

第4组 - 迭代上下采样

另一种流行的模型架构是沙漏(或U-Net)结构。诸如Stacked Hourglass网络之类的一些变体使用串联的几个沙漏结构,在上采样和下采样的过程之间有效地交替。

该框架下的模型可以更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。

损失函数

损失函数用于测量生成的高分辨率图像和地面实况高分辨率图像之间的差异。然后使用该差异(误差)来优化监督学习模型。存在几类损失函数,其中每种损失函数都惩罚所生成图像的不同方面。

通常,通过加权和总结从每个损失函数单独获得的误差来使用多于一个的损失函数。这使模型能够同时关注由多个损失函数贡献的方面。

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

在本节中,我们将探讨用于训练模型的一些流行的损失函数类。

像素丢失

像素损失是最简单的一类损失函数,其中生成的图像中的每个像素直接与地面实况图像中的每个像素进行比较。使用诸如L1或L2损耗之类的流行损失函数或诸如Smooth L1损失之类的高级变体。

PSNR度量(下面讨论)与像素差异高度相关,因此最小化像素损失直接最大化PSNR度量值(指示良好性能)。然而,像素损失没有考虑图像质量,并且模型经常输出感知上不令人满意的结果(通常缺少高频细节)。

内容丢失

该损失基于其感知质量评估图像质量。一种有趣的方法是通过比较生成图像的高级特征和地面实况图像。我们可以通过预先训练的图像分类网络(例如VGG-Net或ResNet)传递这些图像来获得这些高级特征。

上面的等式计算地面实况图像和生成的图像之间的内容损失,给定预训练网络(Φ)和该预训练网络的层(1),在该处计算损耗。这种损失促使生成的图像在感知上与地面实况图像相似。因此,它也被称为感知损失

纹理损失

为了使生成的图像具有与地面实况图像相同的样式(纹理,颜色,对比度等),使用纹理损失(或样式重建损失)。Gatys等人描述的图像纹理al,被定义为不同特征通道之间的相关性。特征通道通常从使用预训练的图像分类网络(Φ)提取的特征图获得。

特征图之间的相关性由Gram矩阵(G)表示,Gm矩阵是矢量化特征图ij图层之间的内积l (如上所示)。一旦计算了两个图像的Gram矩阵,计算纹理损失是直截了当的,如下所示:

通过使用这种损失,模型被激励创建逼真的纹理和视觉上更令人满意的结果。

总变异损失

总变差(TV)损耗用于抑制生成的图像中的噪声。它取相邻像素之间的绝对差值之和,并测量图像中的噪声量。对于生成的图像,电视丢失计算如下:

这里,分别i,j,k迭代高度,宽度和通道。

对抗性损失

生成性对抗网络(GAN)已越来越多地用于包括超分辨率在内的多种基于图像的应用。GAN通常由两个神经网络系统组成 - 发电机和鉴别器 - 相互决斗。

给定一组目标样本,Generator会尝试生成可以欺骗Discriminator的样本,使其相信它们是真实的。鉴别器尝试从假(生成)样本中解析实际(目标)样本。使用这种迭代训练方法,我们最终得到一个真正擅长生成类似于目标样本的样本的Generator。下图显示了典型GAN的结构。

引入了基本GAN架构的进步以提高性能。例如,Park et。al使用特征级鉴别器来捕获真实高分辨率图像的更有意义的潜在属性。您可以查看博客,以获得有关GAN进展的更详细的调查。

通常情况下,训练有对抗性损失的模型具有更好的感知质量,即使他们可能会因为像素丢失训练而失去PSNR。一个小的缺点是,GAN的训练过程有点困难和不稳定。然而,积极研究稳定GAN训练的方法。

度量

一个重要问题是我们如何定量评估模型的性能。许多图像质量评估(IQA)技术(或度量)用于相同的。这些指标可大致分为两类 - 主观指标和客观指标。

主观指标基于人类观察者的感知评估,而客观指标基于试图评估图像质量的计算模型。主观指标通常更“感知准确”,但是这些指标中的一些不方便,耗时或昂贵。另一个问题是这两类指标可能彼此不一致。因此,研究人员经常使用两个类别的指标显示结果。

在本节中,我们将简要探讨一些广泛使用的度量标准,以评估我们的超分辨率模型的性能。

PSNR

峰值信噪比(PSNR)是常用的客观度量,用于测量有损变换的重建质量。PSNR与地面实况图像和生成的图像之间的均方误差(MSE)的对数成反比。

在上面的公式中,L是最大可能像素值(对于8位RGB图像,它是255)。不出所料,由于PSNR只关心像素值之间的差异,因此它并不能很好地代表感知质量。

SSIM

结构相似性(SSIM)是用于基于三个相对独立的比较(即亮度,对比度和结构)来测量图像之间的结构相似性的主观度量。摘要,SSIM公式可以作为独立计算的亮度,对比度和结构比较的加权乘积。

在上面的公式中,α,β和γ分别是亮度,对比度和结构比较函数的权重。SSIM公式的常用表示如下所示:

在上面的公式中μ(I)表示特定图像的平均值,σ(I) 表示特定图像的标准偏差,σ(I,I’)表示两个图像之间的协方差,并且C1, C2是为避免不稳定而设置的常数。为简洁起见,本博客中未解释术语的重要性和确切的推导,感兴趣的读者可以查看本文第2.3.2节

由于图像统计特征或失真可能分布不均匀,因此在本地评估图像质量比在全球范围内应用图像质量更可靠。将图像分成多个窗口并平均在每个窗口获得的SSIM的平均SSIM(MSSIM)是一种在本地评估质量的方法。

无论如何,由于SSIM从人类视觉系统的角度评估重建质量,它更好地满足了感知评估的要求。

其他IQA分数

没有解释,下面列出了评估图像质量的一些其他方法。感兴趣的读者可以参考本文了解更多细节。

  • 平均意见得分(MOS)
  • 基于任务的评估
  • 信息保真标准(IFC)
  • 视觉信息保真度(VIF)

结论

这篇博客文章介绍了培训超分辨率深度学习模型的一些介绍性材料和程序。确实有更先进的技术引入了最先进的技术,可以产生更好的性能。此外,研究诸如无监督超分辨率,更好的归一化技术和更好的代表性指标等途径可以大大推动这一领域。鼓励感兴趣的读者通过参与PIRM挑战等挑战来试验他们的创新想法










Guess you like

Origin www.cnblogs.com/jins-note/p/11141340.html