超解像は、導入に使用する学習の深さ
さまざまなコンポーネントの超解像詳細な議論、機能およびメトリックの損失の使用に関する詳細な研究。
入門
超解像度(LR)画像回復高解像度(HR)所定の解像度処理からの画像。小さな空間解像度(すなわち、大きさ)、または分解の結果として(例えば、ぼやけ)に、画像は、「低解像度」を有していてもよいです 我々 HRおよびLR画像は、次式で関係していることができます。LR = degradation(HR)
ダウングレード機能を適用する際に明らかに、我々は、HR画像LRの画像から得られます。しかし、我々はそれを回すことができますか?理想的な状況では、はい!私たちはダウングレードの正確な機能を知っている場合は、LRで使用されるその逆のイメージで、我々はHR画像を復元することができます。
しかし、問題があります。我々は通常、分解機能を知りません。逆分解機能の直接的な推定がある不良設定問題。それにも関わらず、学習技術の深さは、超解像のために有効であることが証明されています。
このブログは、深い学習を利用した超解像を実行するために、教師のトレーニングメソッドを使用する方法について説明します。また、我々は重要な機能と損失メトリックの数を議論しました。多くはから来て、読者が参照される文献レビュー。
モニタリング方法論
上述したように、学習は、所与の解像度(LR)画像の高解像度(HR)画像の深さを推定するために使用することができます。入力として、我々は、ターゲット(または地上の真実)とLR画像とHR画像を用いて教師あり学習問題とみなすことができます。
このセクションでは、学習する組織畳み込み層における様々な深さでグループ化されました。私たちはこれらのチームに入る前に、我々は、データの準備と畳み込みタイプをご紹介します。最適化モデルのための損失関数は、個別にこのブログの最後に記載されています。
データを準備します
簡単な方法は、LRのHRデータを取得し、データを低減することです。これは通常、ぼかしやノイズを追加することによって行われます。低空間解像度の画像は、によってなどであってもよいバイリニア又はバイキュービック補間古典的なサンプリング方法をスケーリングします。また、JPEG量子化アーティファクトにより導入され、画質を劣化させることができます。
注意すべきことの一つは、HR画像が圧縮されていない(または可逆圧縮)形式で格納されていることが推奨されます。これは、準最適性能を与えることができるHRの非可逆圧縮による画質の低下を防止することです。
コンボリューションタイプ
古典的な2Dたたみ込みに加えて、あなたはまた、結果を改善するために、ネットワーク内にはいくつかの興味深いバリエーションを使用することができます。膨張(Atrousは)離れ大きな距離の情報を用い、視野の巻線より効率的に提供することができます。接続スキップ、空間ピラミッドプールと密なブロックの性能を向上させるために、低レベルと高度な機能の組み合わせを触発します。
この図は、ネットワークの設計戦略の数に言及しました。あなたはを参照することができます。この記事の詳細については。コンボリューションの異なる種類で用いられたプライマーの深さについて学ぶ、あなたはこれを参照することができますブログ。
グループ1 - プレアップサンプリング
在该方法中,首先内插低分辨率图像以获得“粗略”高分辨率图像。现在,CNN用于学习从插值的低分辨率图像到高分辨率图像的端到端映射。直觉是,使用传统方法(例如双线性插值)首先对低分辨率图像进行上采样可能更容易,然后细化结果,而不是学习从低维空间到高维空间的直接映射。
对于使用此技术的某些型号,您可以参考本文的第5页。优点在于,由于上采样是通过传统方法处理的,因此CNN仅需要学习如何细化粗略图像,这更简单。此外,由于我们在这里没有使用转置卷积,因此可能会绕过棋盘格。然而,缺点是预定义的上采样方法可能放大噪声并导致模糊。
第2组 - 后上采样
在这种情况下,低分辨率图像被传递到CNN。使用可学习层在最后一层执行上采样。
该方法的优点在于在较低维空间中(在上采样之前)执行特征提取,因此降低了计算复杂度。此外,通过使用可学习的上采样层,可以端到端地训练模型。
第3组 - 逐步上采样
在上述组中,即使计算复杂度降低,也只使用单个上采样卷积。这使得大型缩放因子的学习过程更加困难。为了解决这个缺点,拉普拉斯金字塔SR网络(LapSRN)和Progressive SR(ProSR)等工作采用了渐进式上采样框架。在这种情况下的模型使用级联的CNN以在每个步骤以较小的缩放因子逐步重建高分辨率图像。
通过将困难的任务分解为更简单的任务,大大降低了学习难度并且可以获得更好的性能。此外,可以整合课程学习等学习策略,进一步降低学习难度,提高最终表现。
第4组 - 迭代上下采样
另一种流行的模型架构是沙漏(或U-Net)结构。诸如Stacked Hourglass网络之类的一些变体使用串联的几个沙漏结构,在上采样和下采样的过程之间有效地交替。
该框架下的模型可以更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。
损失函数
损失函数用于测量生成的高分辨率图像和地面实况高分辨率图像之间的差异。然后使用该差异(误差)来优化监督学习模型。存在几类损失函数,其中每种损失函数都惩罚所生成图像的不同方面。
通常,通过加权和总结从每个损失函数单独获得的误差来使用多于一个的损失函数。这使模型能够同时关注由多个损失函数贡献的方面。
total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3
在本节中,我们将探讨用于训练模型的一些流行的损失函数类。
像素丢失
像素损失是最简单的一类损失函数,其中生成的图像中的每个像素直接与地面实况图像中的每个像素进行比较。使用诸如L1或L2损耗之类的流行损失函数或诸如Smooth L1损失之类的高级变体。
PSNR度量(下面讨论)与像素差异高度相关,因此最小化像素损失直接最大化PSNR度量值(指示良好性能)。然而,像素损失没有考虑图像质量,并且模型经常输出感知上不令人满意的结果(通常缺少高频细节)。
内容丢失
该损失基于其感知质量评估图像质量。一种有趣的方法是通过比较生成图像的高级特征和地面实况图像。我们可以通过预先训练的图像分类网络(例如VGG-Net或ResNet)传递这些图像来获得这些高级特征。
上面的等式计算地面实况图像和生成的图像之间的内容损失,给定预训练网络(Φ)和该预训练网络的层(1),在该层处计算损耗。这种损失促使生成的图像在感知上与地面实况图像相似。因此,它也被称为感知损失。
纹理损失
为了使生成的图像具有与地面实况图像相同的样式(纹理,颜色,对比度等),使用纹理损失(或样式重建损失)。Gatys等人描述的图像纹理。al,被定义为不同特征通道之间的相关性。特征通道通常从使用预训练的图像分类网络(Φ)提取的特征图获得。
特征图之间的相关性由Gram矩阵(G)表示,Gm矩阵是矢量化特征图i
和j
图层之间的内积l
(如上所示)。一旦计算了两个图像的Gram矩阵,计算纹理损失是直截了当的,如下所示:
通过使用这种损失,模型被激励创建逼真的纹理和视觉上更令人满意的结果。
总变异损失
总变差(TV)损耗用于抑制生成的图像中的噪声。它取相邻像素之间的绝对差值之和,并测量图像中的噪声量。对于生成的图像,电视丢失计算如下:
这里,分别i,j,k
迭代高度,宽度和通道。
对抗性损失
生成性对抗网络(GAN)已越来越多地用于包括超分辨率在内的多种基于图像的应用。GAN通常由两个神经网络系统组成 - 发电机和鉴别器 - 相互决斗。
给定一组目标样本,Generator会尝试生成可以欺骗Discriminator的样本,使其相信它们是真实的。鉴别器尝试从假(生成)样本中解析实际(目标)样本。使用这种迭代训练方法,我们最终得到一个真正擅长生成类似于目标样本的样本的Generator。下图显示了典型GAN的结构。
引入了基本GAN架构的进步以提高性能。例如,Park et。al。使用特征级鉴别器来捕获真实高分辨率图像的更有意义的潜在属性。您可以查看此博客,以获得有关GAN进展的更详细的调查。
通常情况下,训练有对抗性损失的模型具有更好的感知质量,即使他们可能会因为像素丢失训练而失去PSNR。一个小的缺点是,GAN的训练过程有点困难和不稳定。然而,积极研究稳定GAN训练的方法。
度量
一个重要问题是我们如何定量评估模型的性能。许多图像质量评估(IQA)技术(或度量)用于相同的。这些指标可大致分为两类 - 主观指标和客观指标。
主观指标基于人类观察者的感知评估,而客观指标基于试图评估图像质量的计算模型。主观指标通常更“感知准确”,但是这些指标中的一些不方便,耗时或昂贵。另一个问题是这两类指标可能彼此不一致。因此,研究人员经常使用两个类别的指标显示结果。
在本节中,我们将简要探讨一些广泛使用的度量标准,以评估我们的超分辨率模型的性能。
PSNR
峰值信噪比(PSNR)是常用的客观度量,用于测量有损变换的重建质量。PSNR与地面实况图像和生成的图像之间的均方误差(MSE)的对数成反比。
在上面的公式中,L是最大可能像素值(对于8位RGB图像,它是255)。不出所料,由于PSNR只关心像素值之间的差异,因此它并不能很好地代表感知质量。
SSIM
结构相似性(SSIM)是用于基于三个相对独立的比较(即亮度,对比度和结构)来测量图像之间的结构相似性的主观度量。摘要,SSIM公式可以作为独立计算的亮度,对比度和结构比较的加权乘积。
在上面的公式中,α,β和γ分别是亮度,对比度和结构比较函数的权重。SSIM公式的常用表示如下所示:
在上面的公式中μ(I)
表示特定图像的平均值,σ(I)
表示特定图像的标准偏差,σ(I,I’)
表示两个图像之间的协方差,并且C1, C2
是为避免不稳定而设置的常数。为简洁起见,本博客中未解释术语的重要性和确切的推导,感兴趣的读者可以查看本文第2.3.2节。
由于图像统计特征或失真可能分布不均匀,因此在本地评估图像质量比在全球范围内应用图像质量更可靠。将图像分成多个窗口并平均在每个窗口获得的SSIM的平均SSIM(MSSIM)是一种在本地评估质量的方法。
无论如何,由于SSIM从人类视觉系统的角度评估重建质量,它更好地满足了感知评估的要求。
其他IQA分数
没有解释,下面列出了评估图像质量的一些其他方法。感兴趣的读者可以参考本文了解更多细节。
- 平均意见得分(MOS)
- 基于任务的评估
- 信息保真标准(IFC)
- 视觉信息保真度(VIF)
结论
这篇博客文章介绍了培训超分辨率深度学习模型的一些介绍性材料和程序。确实有更先进的技术引入了最先进的技术,可以产生更好的性能。此外,研究诸如无监督超分辨率,更好的归一化技术和更好的代表性指标等途径可以大大推动这一领域。鼓励感兴趣的读者通过参与PIRM挑战等挑战来试验他们的创新想法。