统一图像恢复和增强的生成扩散先验
CVPR2023
论文地址:https://arxiv.org/abs/2304.01247
项目地址:https://github.com/Fayeben/GenerativeDiffusionPrior
Abstract
现有的图像恢复方法多是利用自然图像的后验分布。然而,它们通常假定已知的退化,并且还需要有监督的训练,这限制了它们对复杂实际应用的适应。在这项工作中,我们提出了生成扩散先验(GDP)以无监督抽样的方式有效地建模后验分布。GDP利用预训练去噪扩散生成模型(DDPM)来解决线性逆、非线性或盲问题。具体而言,GDP系统地探索了一种有条件引导的协议,验证了该协议比常用的引导方式更具实用性。此外,GDP擅长在去噪过程中优化退化模型的参数,实现图像的盲恢复。此外,我们设计了分层引导和基于patch的方法,使GDP能够生成任意分辨率的图像。通过实验,我们证明了 GDP 在多个图像数据集上的多功能性,可解决线性问题,例如超分辨率、去模糊、修复和着色,以及非线性和盲问题,例如低光增强和 HDR 图像恢复。GDP在重构质量和感知质量的各种基准上优于目前领先的无监督方法。此外,对于来自ImageNet训练集分布的各种任务的任意大小的自然图像或合成图像,GDP也可以很好地泛化。
1. Introduction
在捕获、存储、传输和渲染过程中,图像质量经常会下降。图像恢复和增强[44]的目的是逆转退化,提高图像质量。通常,恢复和增强任务可分为两大类:
1)线性逆问题,如图像超分辨率(SR)[24,39]、去模糊[37,80]、图像修补[93]、着色[38,100],其中退化模型通常是线性且已知的;
2)非线性或盲问题[1],如图像弱光增强[41]和高动态范围HDR图像恢复[10,84],其中退化模型是非线性和未知的。
对于特定的线性退化模型,图像恢复可以通过神经网络的端到端监督训练来解决[16,100]。尽管如此,现实世界中损坏的图像通常具有多种复杂的退化[60],其中完全监督的方法难以推广。
通过生成模型寻求更一般的图像先验[1,21,74],并在无监督设置中处理图像恢复[8,19],其中不同退化模型的多个恢复任务可以在推理过程中解决,而无需重新训练。例如,生成式对抗网络(Generative Adversarial Networks, GAN)[20]在大量干净图像数据集上训练,学习了丰富的现实世界场景知识,通过GAN反演成功地解决了各种线性逆问题[21,54,62]。与此同时,去噪扩散概率模型(Denoising Diffusion probistic Models, DDPM)[2,7,36,72,77,82]在GAN的基础上展示了令人印象深刻的生成能力、细节水平和多样性[27,66,67,76,78,81]。作为早期的尝试,Kawar等人[32]利用变分推理探索了预训练的DDPM,并在多个恢复任务上取得了令人满意的结果,但他们的去噪扩散恢复模型(DDRM)利用了已知线性退化矩阵上的奇异值分解(SVD),使其仍然局限于线性逆问题。
在本研究中,我们进一步提出了一种名为生成扩散先验(GDP)的有效方法。它利用训练有素的DDPM作为通用图像恢复和增强的有效先验,使用退化的图像作为指导。作为一个统一的框架,GDP不仅适用于各种线性逆问题,而且第一次推广到非线性、盲目的图像恢复和增强任务。然而,解决盲逆问题并非易事,因为需要同时估计退化模型并以高保真度恢复干净图像。由于预训练的DDPM中的生成先验,DDPM流形内的去噪自然地正则化了恢复图像的真实感和保真度。因此,我们采用盲退化估计策略,在去噪过程中随机初始化和优化GDP的退化模型参数。此外,为了进一步提高图像的真实感和质量,我们系统地研究了一种有效的方法来指导扩散模型。具体来说,在采样过程中,预训练的DDPM首先通过估计 x t x_t xt中的噪声,从带有噪声的图像 x t x_t xt中预测出一个干净的图像 x ~ 0 \widetilde{x}_0 x 0。我们可以在这个中间变量 x ~ 0 \widetilde{x}_0 x 0上加入制导来控制DDPM的生成过程。此外,在本文提出的分层引导和基于patch的生成策略的帮助下,GDP能够恢复任意分辨率的图像,其中首先预测低分辨率图像和退化模型,以指导高分辨率图像的生成。
我们通过将GDP与ImageNet[14]、LSUN[94]和CelebA[31]数据集上的线性或多线性逆问题下的各种竞争性无监督方法在一致性和FID方面进行比较,证明了GDP的经验有效性。在低光照[41]和NTIRE[63]数据集上,我们进一步展示了GDP在非线性和盲问题上的结果,包括低光照增强和HDR恢复,在定性和定量上都优于其他零拍摄基线,这表明在ImageNet上训练的GDP也适用于其训练集分布之外的图像。
我们的贡献有四个方面:
- 据我们所知,GDP是第一个统一的问题解决器,它可以有效地使用[15]提供的在ImageNet上预训练的单个无条件DDPM,以无监督的方式为统一的图像恢复和增强产生多样化和高保真的输出。
- GDP能够优化随机启动的未知退化参数,从而形成一个强大的框架,可以解决任何盲目的图像恢复。
- 进一步,为了实现任意大小的图像生成,我们提出了分层引导和基于的方法,极大地促进了自然图像增强上的GDP。
- 并且进行了综合实验,不同于传统的引导方式,即GDP直接预测每一步给定噪声图像的临时输出,并利用GDP直接指导下一步图像的生成。
2. Related works
线性逆图像恢复。大多数线性逆问题的扩散模型都采用了无条件模型来处理条件任务[53,79],其中只需要训练一个模型。然而,无条件任务往往比有条件任务更难。此外,在图像恢复中,多线性任务也是一个研究相对较少的课题。例如,[65,95]同时训练多个任务,但他们主要集中在增强任务,如去模糊等。一些作品也通过在多个退化上同时训练来处理多尺度超分辨率[35]。在这里,我们提出GDP作为处理单一线性逆或多个线性逆任务的单一模型。
非线性图像恢复。非线性成像模型提供了几种成像系统的精确描述,包括高动态范围成像中的相机响应函数[68]。非线性图像恢复模型更精确,但往往更难以计算。近年来,非线性图像恢复问题受到了广泛的关注。例如,HDR-GAN[59]被提出用于从多次曝光的LDR图像合成HDR图像,而启蒙GAN[29]被设计为一种无监督GAN,可以在各种真实世界的测试图像上进行很好的泛化。对于非线性图像恢复中扩散模型的研究很少。
盲图像恢复。早期的监督尝试[5,25]倾向于估计未知的点扩展函数。例如,[34] 设计了一类结构化降噪器,[75] 在测试期间采用固定的下采样操作来生成合成对。然而,由于退化类型复杂,这些方法往往无法获得观测数据的参数或分布。另一种解决盲图像恢复的方法是利用无监督学习方法[18,107]。继CycleGAN[107]之后,CinCGAN[96]和MCinCGAN[103]采用预训练的SR模型和周期一致性损失来学习从输入图像到高质量图像空间的映射。然而,如何开发一种统一的盲图像恢复体系结构仍然是一个挑战。利用强大的GDP的优点,可以通过同时估计恢复图像和特定的退化模型来解决这些盲目问题。
3. Preliminary
扩散模型[2,22,36,71,89]将复杂数据分布 x 0 ∼ p d a t a x_{0}\sim p_{d a t a} x0∼pdata转换为简单噪声分布 x T ∼ p l a t e n t = N ( 0 , I ) 从 \boldsymbol{x}_{T}\sim\mathrm{p_{latent}}=\mathcal{N}(\boldsymbol{0},\boldsymbol{I})从 xT∼platent=N(0,I)从噪声中恢复数据,其中N为高斯分布。DDPM主要包括扩散过程和反向过程。
扩散过程是一个马尔可夫链,它逐渐破坏数据x0,直到它在T个扩散时间步长接近高斯噪声板。损坏的数据 x 1 ; . . . ; x T x_1;...;x_T x1;...;xT从数据 p d a t a p_{data} pdata中采样,有一个扩散过程,定义为高斯跃迁:
q ( x 1 , ⋯ , x T ∣ x 0 ) = ∏ t = 1 q ( x t ∣ x t − 1 ) , (1) q\left(\boldsymbol{x}_{1},\cdots,\boldsymbol{x}_{T}\mid\boldsymbol{x}_{0}\right) =\prod_{t=1}q\left(\boldsymbol{x}_{t}\mid\boldsymbol{x}_{t-1}\right), \tag{1} q(x1,⋯,xT∣x0)=t=1∏q(xt∣xt−1),(1)
式中t为扩散步长, q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q (x_t | x_{t−1})= \mathcal{N}\left(\boldsymbol{x}_{t};\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1},\beta_{t}I\right) q(xt∣xt−1)=N(xt;1−βtxt−1,βtI); β t \beta_{t} βt为固定或学习方差表。前向降噪过程的一个重要特性是,任何步长 x t x_t xt都可以通过以下公式直接从 x 0 x_0 x0采样:
x t = α ˉ t x 0 + 1 − α ˉ t ϵ , (2) x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon, \tag{2} xt=αˉtx0+1−αˉtϵ,(2)
其中, ϵ ∼ N ( 0 , I ) , α t = 1 − β t \epsilon\sim\mathcal{N}(0,\boldsymbol{I}),\alpha_t=1-\beta_t ϵ∼N(0,I),αt=1−βt, α ˉ t = ∏ i = 1 t α i {\bar{\alpha}}_{t}=\prod_{i=1}^{t}\alpha_{i} αˉt=∏i=1tαi。Ho等人[27]证明了 q ( x t ∣ x 0 ) q (x_t|x_0) q(xt∣x0)存在一个封闭形式表达式。我们可以得到 q ( x t ∣ x 0 ) = N ( x t ; α ‾ t x 0 , ( 1 − α ‾ t ) I ) q (x_t|x_0) = {\mathcal{N}}\left(x_{t};{\sqrt{\overline{
{
{\alpha}}}}_{t}}x_{0},\left(1-{\overline{
{
{\alpha}}}}_{t}\right)I\right) q(xt∣x0)=N(xt;αtx0,(1−αt)I),其中 α ‾ t {\overline{
{
{\alpha}}}}_{t} αt趋近于0,且t较大, q ( x t ∣ x 0 ) q (x_t|x_0) q(xt∣x0)接近潜在分布 p d a t a p_{data} pdata。
反向过程是一个马尔可夫链,迭代地去噪采样的高斯噪声到一个干净的图像。从噪声 x T ∼ N ( 0 ; I ) x_T \sim N (0;I) xT∼N(0;I),从潜数据 x T x_T xT到干净数据 x 0 x_0 x0的反向过程定义为:
p θ ( x 0 , ⋯ , x T − 1 ∣ x T ) = ∏ t = 1 T p θ ( x t − 1 ∣ x t ) , p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ I ) (3) \begin{gathered} p_{\theta}\left(x_{0},\cdots,x_{T-1}\mid x_{T}\right)=\prod_{t=1}^{T}p_{\theta}\left(x_{t-1}\mid x_{t}\right), \\ p_{\theta}\left(\boldsymbol{x}_{t-1}\mid\boldsymbol{x}_{t}\right)={\mathcal{N}}\left(\boldsymbol{x}_{t-1};\mu_{\theta}\left(\boldsymbol{x}_{t},t\right),\Sigma_{\theta}I\right) \end{gathered} \tag{3} pθ(x0,⋯,xT−1∣xT)=t=1∏Tpθ(xt−1∣xt),pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),ΣθI)(3)
根据Ho等[27],平均 μ θ ( x t , t ) \mu_{\theta}\left(\boldsymbol{x}_{t},t\right) μθ(xt,t)是我们想要通过神经网络估计的目标 θ \theta θ。方差 Σ θ \Sigma_{\theta} Σθ可以是时变常数[27],也可以是可学习参数[58]。 ϵ θ \epsilon_\theta ϵθ是一个函数逼近器,用于从 x t x_t xt预测 ϵ \epsilon ϵ,如下所示:
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ‾ t ϵ θ ( x t , t ) ) (4) \mu_\theta\left(x_t,t\right)=\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}\epsilon_\theta\left(x_t,t\right)\right) \tag{4} μθ(xt,t)=αt1(xt−1−αtβtϵθ(xt,t))(4)
在实践中, x ~ 0 \widetilde{x}_0 x
0通常由 x t x_t xt预测,然后使用 x ~ 0 \widetilde{x}_0 x
0和 x t x_t xt对 x t − 1 x_{t - 1} xt−1进行采样,计算如下:
x ~ 0 = x t α ˉ t − 1 − α ˉ t ϵ θ ( x t , t ) α ˉ t (5) \tilde{x}_0=\frac{x_t}{\sqrt{\bar{\alpha}_t}}-\frac{\sqrt{1-\bar{\alpha}_t}\epsilon_\theta\left(x_t,t\right)}{\sqrt{\bar{\alpha}_t}} \tag{5} x~0=αˉtxt−αˉt1−αˉtϵθ(xt,t)(5)
q ( x t − 1 ∣ x t , x ~ 0 ) = N ( x t − 1 ; μ ~ t ( x t , x ~ ~ 0 ) , β ~ t − 1 ) , μ ~ t ( x t , x ~ 0 ) = α t − 1 β t 1 − α ~ t x ~ 0 + α t ( 1 − α ~ ~ t − 1 ) 1 − α ~ t x t β ~ t = 1 − α ~ t − 1 1 − α ~ t β t (6) \begin{array}{r l}{q\left(x_{t-1}\mid x_{t},\tilde{x}_{0}\right)={\mathcal{N}}\left(x_{t-1};\tilde{\mu}_{t}\left(x_{t},\tilde{\tilde{x}}_{0}\right),\tilde{\beta}_{t-1}\right),}\\ \quad\tilde{\mu}_{t}\left(x_{t},\tilde{x}_{0}\right)={\frac{\sqrt{\alpha_{t-1}}\beta_{t}}{1-\tilde{\alpha}_{t}}}\tilde{x}_{0}+{\frac{\sqrt{\alpha_{t}}\left(1-\tilde{\tilde{\alpha}}_{t-1}\right)}{1-\tilde{\alpha}_{t}}x_{t}}\\ \quad\tilde{\beta}_{t}={\frac{1-\tilde{\alpha}_{t-1}}{1-\tilde{\alpha}_{t}}}\beta_{t} \end{array} \tag{6} q(xt−1∣xt,x~0)=N(xt−1;μ~t(xt,x~~0),β~t−1),μ~t(xt,x~0)=1−α~tαt−1βtx~0+1−α~tαt(1−α~~t−1)xtβ~t=1−α~t1−α~t−1βt(6)
4. Generative Diffusion Prior
在这项研究中,我们的目标是利用训练有素的 DDPM 作为统一图像恢复和增强的有效先验,特别是处理各种退化图像。具体来说,假设通过 y = D ( x ) y = D(x) y=D(x)捕获退化图像y,其中x为原始自然图像,D为退化模型。我们使用存储在某个先验中的x的统计量,在x的空间中搜索最匹配y的最优x,将y视为x的损坏观测值。由于GAN的反演性能有限,以及表1中先前的工作[32,33,62,69]的应用受到限制,在本文中,我们将重点研究更通用的图像先验,即在大规模自然图像上训练的扩散模型用于图像合成。
受[4,9,12,70,73]的启发,DDPM的反向去噪过程可以以退化图像y为条件。具体而言,将式3中的反向去噪分布 p θ ( x t − 1 ∣ x t ) p_θ(x_{t−1}|x_t) pθ(xt−1∣xt)用于条件分布 p θ ( x t − 1 ∣ x t , y ) p_θ(x_{t−1}|x_t,y) pθ(xt−1∣xt,y)。[15,76]证明
log p θ ( x t − 1 ∣ x t , y ) = log ( p θ ( x t − 1 ∣ x t ) p ( y ∣ x t ) ) + K 1 ≈ log p ( r ) + K 2 , (7) \begin{gathered} \log p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-1}|\boldsymbol{x}_{t},\boldsymbol{y}\right) =\log\left(p_\theta\left(x_{t-1}|x_t\right)p\left(y|x_t\right)\right)+K_1 \\ \approx\log p(r)+K_2, \end{gathered} \tag{7} logpθ(xt−1∣xt,y)=log(pθ(xt−1∣xt)p(y∣xt))+K1≈logp(r)+K2,(7)
其中 r ∼ N ( r ; μ θ ( x t , t ) + Σ g , Σ ) \boldsymbol{r} \sim \mathcal{N}\left(\boldsymbol{r} ; \boldsymbol{\mu}_\theta\left(\boldsymbol{x}_t, t\right)+\Sigma \boldsymbol{g}, \Sigma\right) r∼N(r;μθ(xt,t)+Σg,Σ)和 g = \boldsymbol{g}= g= ∇ x t log p ( y ∣ x t ) \nabla_{\boldsymbol{x}_{\mathrm{t}}} \log p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right) ∇xtlogp(y∣xt),其中 Σ = Σ θ ( x t ) \Sigma=\Sigma_\theta\left(\boldsymbol{x}_t\right) Σ=Σθ(xt)。 K 1 K_1 K1 和 K 2 K_2 K2为常数, p θ ( x t − 1 ∣ x t ) p_\theta\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right) pθ(xt−1∣xt)由公式3定义。 p ( y ∣ x t ) p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right) p(y∣xt)可以看作是 x t \boldsymbol{x}_t xt被去噪后得到与y一致的高质量图像的概率。我们提出了一个启发式近似:
p ( y ∣ x t ) = 1 Z exp ( − [ s L ( D ( x t ) , y ) + λ Q ( x t ) ] ) (8) p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right)=\frac{1}{Z} \exp \left(-\left[s \mathcal{L}\left(\mathcal{D}\left(\boldsymbol{x}_t\right), \boldsymbol{y}\right)+\lambda \mathcal{Q}\left(\boldsymbol{x}_t\right)\right]\right) \tag{8} p(y∣xt)=Z1exp(−[sL(D(xt),y)+λQ(xt)])(8)
式中, L \mathcal{L} L为图像距离度量, Z Z Z为归一化因子, s s s为控制制导幅度的比例因子。直观地说,这个定义鼓励 x t \boldsymbol{x}_t xt与损坏的图像 y \boldsymbol{y} y一致,以获得 p ( y ∣ x t ) p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right) p(y∣xt)的高概率。 Q \mathcal{Q} Q是可选的质量增强损失,增强GDP的灵活性,可以用来控制某些属性(如亮度)或增强去噪图像的质量。 λ \lambda λ是调节图像质量的比例因子。两边的梯度计算为:
log p ( y ∣ x t ) = − log Z − s L ( D ( x t ) , y ) − λ Q ( x t ) ∇ x t log p ( y ∣ x t ) = − s ∇ x t L ( D ( x t ) , y ) − λ ∇ x t Q ( x t ) (9) \begin{aligned} & \log p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right)=-\log Z-s \mathcal{L}\left(\mathcal{D}\left(\boldsymbol{x}_t\right), \boldsymbol{y}\right)-\lambda \mathcal{Q}\left(\boldsymbol{x}_t\right) \\ & \nabla_{\boldsymbol{x}_{\boldsymbol{t}}} \log p\left(\boldsymbol{y} \mid \boldsymbol{x}_t\right)=-s \nabla_{\boldsymbol{x}_t} \mathcal{L}\left(\mathcal{D}\left(\boldsymbol{x}_t\right), \boldsymbol{y}\right)-\lambda \nabla_{\boldsymbol{x}_t} \mathcal{Q}\left(\boldsymbol{x}_t\right) \end{aligned} \tag{9} logp(y∣xt)=−logZ−sL(D(xt),y)−λQ(xt)∇xtlogp(y∣xt)=−s∇xtL(D(xt),y)−λ∇xtQ(xt)(9)
其中距离度量 L \mathcal{L} L和可选质量损失 Q Q Q可在第5节中找到。
这样,条件跃迁 p θ ( x t − 1 ∣ x t , y ) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{y}\right) pθ(xt−1∣xt,y)可以通过无条件跃迁 p θ ( x t − 1 ∣ x t ) p_\theta\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right) pθ(xt−1∣xt)通过移动的平均值近似得到无条件分布由 − ( s Σ ∇ x t L ( D ( x t ) , y ) + λ Σ ∇ x t Q ( x t ) ) -\left(s \Sigma \nabla_{\boldsymbol{x}_t} \mathcal{L}\left(\mathcal{D}\left(\boldsymbol{x}_t\right), \boldsymbol{y}\right)+\right.\lambda \Sigma \nabla_{\boldsymbol{x}_t} \mathcal{Q}\left(\boldsymbol{x}_t\right)) −(sΣ∇xtL(D(xt),y)+λΣ∇xtQ(xt)) 然而,我们发现添加制导的方式[3]和方差 Σ \Sigma Σ对重构图像有负面影响。
4.1. Single Image 引导
超分辨率、图像修补、着色、去模糊和增亮任务使用单图像引导。
方差Σ对指导的影响。在以往的条件扩散模型[15,83]中,对采样过程中的均值移位采用方差 Σ \Sigma Σ,这在附录中有理论证明。在我们的工作中,我们发现方差 Σ \Sigma Σ可能会对我们实验中生成的图像质量产生负面影响。因此,我们在引导去噪过程中去除方差以提高性能。在不使用Σ和固定引导尺度s的情况下,引导去噪过程可以通过可变尺度 s ^ \hat{s} s^来控制。
关于 x t x_t xt的指导。此外,如图2b、附录中的算法1和算法3所示,这类引导扩散模型是常用的模型 [15,48,89],其中引导以 x t x_t xt 为条件但没有 Σ \Sigma Σ,命名为 GDP- x t x_t xt。但是,在 x t x_t xt 上应用指导的这种变体仍然可能产生不太令人满意的图像质量。直觉是 x t x_t xt 是一个具有特定噪声大小的噪声图像,但y通常是一个没有噪声或不同大小的噪声的损坏图像。我们缺乏可靠的方法来定义 x t x_t xt 和y之间的距离。一个朴素的MSE损失或感知损失将使 x t x_t xt 偏离其原始噪声大小,导致低质量的图像生成。
对 x ^ 0 \hat{x}_0 x^0的指导。为了解决上述问题,我们系统地研究了应用于 x ^ 0 \hat{x}_0 x^0的条件信号。具体来说,在采样过程中,预训练的DDPM通常首先通过估计xt中的噪声,从噪声图像xt中预测出一个干净的图像 x ^ 0 \hat{x}_0 x^0,当每个时间步长t中给定 x t x_t xt时,可以通过公式6直接推断出该噪声,然后利用预测的 x ^ 0 \hat{x}_0 x^0与 x t x_t xt一起对下一步潜在的 x t − 1 x_{t-1} xt−1进行采样。我们可以在这个中间变量 x ^ 0 \hat{x}_0 x^0上加入引导来控制DDPM的生成过程。详细的采样过程可以在图2c和算法2中找到,其中只有一张损坏图像。
已知的退化。有几个任务[24,37,38,93]可以归为退化函数已知的一类。图像去模糊和超分辨率的退化模型可表示为 y = ( x ⊗ k ) ↓ s y= (\boldsymbol{x}\otimes\mathbf{k})\downarrow_{\mathbf{s}} y=(x⊗k)↓s。它假设低分辨率(LR)图像是通过首先将高分辨率(HR)图像与高斯核(或点扩散函数)k进行卷积得到模糊图像 x ⊗ k \boldsymbol{x}\otimes\mathbf{k} x⊗k,然后进行比例因子为s的下采样操作 ↓ s \downarrow_{\mathbf{s}} ↓s来获得的。图像修复的目标是恢复图像中缺失的像素。对应的退化变换是将原始图像与二值掩模m相乘: ψ ( x ) = x ⊙ m \psi(\boldsymbol{x})=\boldsymbol{x}\odot\mathbf{m} ψ(x)=x⊙m,其中为Hadamard乘积。此外,图像着色旨在将灰度图像 y ∈ R H × W y \in \mathbb{R} ^{H \times W} y∈RH×W恢复为具有RGB通道的 x ∈ R 3 × H × W x \in \mathbb{R}^{3\times H \times W} x∈R3×H×W的彩色图像。为了从彩色图像x中得到y,退化变换 ψ \psi ψ是一种只保留 x x x亮度的灰度变换。
未知的退化。在现实世界中,许多图像经历了复杂的退化[98],其中退化模型或退化模型的参数是未知的[45,86]。在这种情况下,需要同时估计原始图像和退化模型参数。例如,在我们的工作中,弱光图像增强和HDR恢复可以视为具有未知退化模型的任务。在这里,我们设计了一个简单而有效的降解模型来模拟复杂的降解过程,可以表示为:
y = f x + M , (10) y=fx+\mathcal{M}, \tag{10} y=fx+M,(10)
其中,光因子f为标量,光掩码 M \mathcal{M} M为与x相同维数的向量,f为退化模型的未知参数。我们可以使用这个简单的退化模型的原因是任何一对损坏的图像和相应的高质量图像之间的变换可以被 f 和 M \mathcal{M} M捕获,只要它们具有相同的大小。如果它们没有相同的大小,我们可以首先将x的大小调整为与y相同的大小,然后应用这个变换。值得注意的是,这种退化模型通常是非线性的,因为f和M依赖于x和y。我们需要对每个单独的损坏图像估计f和M。我们通过随机初始化它们并在DDPM的反向过程中同步优化它们来实现这一点,如算法2所示。
4.2. 扩展的版本
多图像指导。在特定情况下,可以利用多幅图像来引导单幅图像的生成[59,105],这只是研究,比单幅图像引导更具挑战性。为此,我们提出了以多幅图像为指导的HDR图像恢复的HDR- gdp,由三幅输入LDR图像组成,即短、中、长曝光。与低光增强类似,退化模型也被视为公式10,其中确定HDR恢复的参数仍然未知是盲问题。然而,如图2c和算法5所示,在逆向过程中,有3张损坏的图像(n = 3)来引导生成,从而随机初始化和优化3张LDR图像的3对盲参数。
恢复任意大小的图像。此外,[15]提供的256大小的预训练扩散模型只能生成固定大小的图像,而各种图像恢复的图像大小是不同的。本文采用基于patch的方法[47]来解决这一问题。通过这种基于patch的策略的优点(在图13和算法6中),GDP可以扩展到恢复任意分辨率的图像,以促进GDP的通用性。
5. Loss Function
在GDP中,损失函数可以分为重构损失和质量增强损失两大部分,重构损失的目的是恢复条件信号中包含的信息,而质量增强损失的目的是整合,提高最终输出的质量。
重建损失。 重建损失可以是 MSE、结构相似性指数度量 (SSIM)、感知损失或其他重建损失。 在这里,我们主要选择 MSE 损失作为我们的重建损失。
质量增强损失。
1)曝光控制损失:为了增强GDP的通用性,采用曝光控制损失Lexp[23]来控制微光图像增强的曝光水平,其表示为:
L exp = 1 U ∑ k = 1 U ∣ R k − E ∣ , (11) L_{\exp}=\frac{1}{U}\sum\limits_{k=1}^U\left|R_k-E\right|, \tag{11} Lexp=U1k=1∑U∣Rk−E∣,(11)
其中,U为大小为8×8的不重叠局部区域的个数,R为重构图像中局部区域的平均强度值。继之前的工作 [55, 56] 之后,E 被设置为 RGB 颜色空间中的灰度级。 正如预期的那样,可以调整 E 以控制我们实验中的亮度。
2)色彩恒常性损失:根据Gray-World色彩恒常性假设[6],利用色彩恒常性损失Lcol来校正恢复图像中潜在的色彩偏差,并在着色任务中架起三个调整通道之间的联系,具体表述为:
L c o l = ∑ ∀ ( m , n ) ∈ ε ( Y m − Y n ) 2 , ε = { ( R , G ) , ( R , B ) , ( G , B ) } (12) L_{\mathrm{col}}=\sum\limits_{\forall(m,n)\in\varepsilon}(Y^m-Y^n)^2,\varepsilon=\{(R,G),(R,B),(G,B)\} \tag{12} Lcol=∀(m,n)∈ε∑(Ym−Yn)2,ε={(R,G),(R,B),(G,B)}(12)
式中,Ym为恢复图像中m通道的平均强度值,(m,n)表示一对通道。
3)光照平滑损失:为了保持优化光掩模M中相邻像素之间的单调关系,对每个光方差M使用一个照明平滑损失[23],光照平滑损失 L t v M L_{tv_{\mathcal{M}}} LtvM定义为:
L t v M = 1 N ∑ n = 1 N ∑ c ∈ ξ ( ∣ ∇ h M n c ∣ + ∇ v M n c ∣ ) 2 . ξ = { R , G , B } , (13) L_{
{tv_{\mathcal{M}}}}=\frac{1}{N}\sum\limits_{n=1}^N\sum\limits_{c\in\xi}(|\nabla_h\mathcal{M}_n^c|+\nabla_v\mathcal{M}_n^c|)^2.\xi=\{R,G,B\}, \tag{13} LtvM=N1n=1∑Nc∈ξ∑(∣∇hMnc∣+∇vMnc∣)2.ξ={
R,G,B},(13)
其中N为迭代次数, ∇ h \nabla_h ∇h和 ∇ v \nabla_v ∇v分别为水平和垂直梯度操作。
具体而言,图像着色任务利用颜色恒常性损失来获得更自然的颜色。出于同样的原因,弱光增强需要失去色恒性。此外,弱光增强任务利用光照平滑度损失使估计的光掩模 M \mathcal{M} M更平滑。曝光控制损失使我们能够手动控制恢复图像的亮度。损失的权重可在附录中找到。
6. Experiments
在本节中,我们系统地比较了使用 [15] 提供的在 ImageNet 上预训练的单个无条件 DDPM 的 GDP 与各种图像恢复和增强任务的其他方法,并消除了所提出设计的有效性。我们在附录中进一步列出了所有任务的实施、数据集、评估和更多定性结果的细节。
6.1. 线性和多线性退化任务
为了量化GDP的表现,我们关注ImageNet数据集的多样性。对于每个实验,我们报告平均峰值信噪比(PSNR), SSIM和一致性来衡量原始图像的忠实度,FID来衡量结果图像质量。将GDP与其他可以在ImageNet上运行的无监督方法进行比较,包括RED[69]、DGP[62]、SNIPS[33]和DDRM[32]。我们在1000个ImageNet类中的每一个验证集上评估了4倍超分辨率、去模糊、着色和着色任务上的所有方法,如下[62]。
表2显示,GDP-x0在一致性和FID方面优于其他方法。唯一的例外是DDRM比GDP实现了更好的PSNR和SSIM,但它需要更高的一致性和FID[11,13,15,17,28,73]。GDP在所有测试数据集和问题中产生高质量的重建,可以在附录中看到。作为一种后验抽样算法,GDP可以对相同的输入产生多个输出,如图3中的着色任务所示。此外,无条件ImageNet ddpm可以用于解决具有一般内容的分布外图像的逆问题。
在图4和图5以及附录中的更多插图中,我们展示了GDP成功地恢复了来自USC-SIPI [87], LSUN[94]和CelebA[31]的256 × 256图像,这些图像不一定属于任何ImageNet类。
GDP也可以恢复多次退化的图像(图1和附录)。
6.2. 曝光修正任务
受到在线性逆问题上的出色表现的鼓舞,我们进一步评估了我们在微光图像增强上的GDP,这分为非线性和盲问题。继前人的研究[41]之后,我们利用LOL[88]、VE-LOL-L [47]和最具挑战性的LoLi-phone[41]三个数据集来测试GDP在弱光增强上的能力。
如表3所示,我们的GDP-x0在三个数据集下的所有零射击方法中都实现了最佳FID、亮度顺序误差(LOE)[85]和感知指数(PI)[57]。较低的LOE表示对亮度自然度的保存较好,而较低的PI表示感知质量较好。
在图6和附录中,我们的GDP-x0在所有方法中产生了最合理和最令人满意的结果。为了更好的控制,利用曝光控制损失的优点,生成图像的亮度可以通过良好的曝光级别E来调节(图1和附录)。
6.3. HDR图像恢复
为了评估我们的HDR恢复模型[41],我们将HDR- gdp -x0与最先进的HDR方法在来自NTIRE2021多帧HDR挑战[63]的HDR数据集中的测试图像上进行了比较,我们从中随机选择了100个不同的场景作为验证。每个场景由三张不同曝光的LDR图像和相应的HDR地面真值组成。用于比较的最先进的方法包括AHDRNet[91]、HDR-GAN[59]、DeepHDR[90]和deep-high - dynamic-range[30]。
定量结果如表4所示,其中HDR-GDP-x0在PSNR、SSIM、LPIPS和FID中表现最佳。
如图7和附录所示,HDR-GDP-x0的重建图像质量更好,可以增强弱光部分,调整过曝光区域。HDR- gdpx0恢复的HDR图像细节更加清晰。
6.4. 消融实验
方差的有效性Σ和指导协议。通过对方差Σ和两种制导方式的消融性研究,揭示了其有效性。
如表5 所示,GDP-xt 和 GDP-x0 的性能分别优于具有 Σ 的 GDP-xt 和具有 Σ 的 GDP-x0,验证不存在方差 Σ 可以产生更好的图像质量。此外,GDP-x0和使用Σ的GDP-x0的结果分别优于GDP-xt和使用Σ的GDP-xt,说明了x0协议指导的优越性。
可训练退化与patch战术的有效性。此外,为了验证退化模型的可训练参数和我们基于patch的方法的影响,我们在LOL[88]和NTIRE[63]数据集上进行了进一步的实验。模型A设计为从参数不相关的patch和patch中天真地恢复图像。ModelB对图像中的所有patch进行了固定参数的设计。
如表6所示,我们的GDP-x0在所有模型中排名第一,并且获得了最好的可视化结果(图7和附录),这显示了我们提出的分层指导和基于patch的方法的优势。
7. Conclusion
在本文中,我们提出了用于统一图像恢复的生成扩散先验算法,可以用来解决线性逆、非线性和盲目问题。我们的GDP能够通过分层指导和基于patch的方法恢复任何大小的图像。系统地研究了利用DDPM强度的导引方法。GDP在超分辨率、去模糊、上漆、上色、弱光增强、HDR恢复等多项任务上得到综合运用,体现了GDP在图像统一恢复方面的能力。
Appendix