【基于分数的模型与扩散模型的区别与联系】score-based generative models总结

【基于分数的模型与扩散模型的区别与联系】score-based generative models总结

本篇博客介绍了基于分数的模型和扩散模型的联系与区别,并对基于分数的模型进行了总结和缺点分析。都给出了表格形式的总结。

主要参考自Yang Song的博客【2】

1、score-based generative models一表格概览

名称 形式
score function ∇ x log ⁡ p ( x ) \nabla_\mathbf{x} \log p( \mathbf{x}) xlogp(x)
score-based model 使用这种score function的模型我们就统称为score-based model,用 s θ ( x ) \mathbf{s}_\theta(\mathbf{x}) sθ(x)来表示,这种模型的目标是在无需考虑规则化常数项的情况下,使得 s θ ( x ) ≈ ∇ x log ⁡ p ( x ) \mathbf{s}_\theta(\mathbf{x}) \approx \nabla_\mathbf{x} \log p( \mathbf{x}) sθ(x)xlogp(x)能被参数化。
score matching 因为 ∇ x log ⁡ p ( x ) \nabla_\mathbf{x} \log p( \mathbf{x}) xlogp(x)不可知,我们无法优化Fisher divergence,而score matching可以在不知道ground-truth data score的情况下最小化Fisher divergence。Score matching objectives可以直接在数据集上估计并使用随机梯度下降进行优化,类似于训练基于似然的模型(具有已知归一化常数)的log-likelihood objective。Commonly used score matching methods include denoising score matching and sliced score matching Sliced score matching,我们可以训练一个score-based模型来优化score-matching objective, 而不需要对抗学习!
Langevin dynamics 在这里插入图片描述 将score-based model s θ ( x ) \mathbf{s}_\theta(\mathbf{x}) sθ(x)代入上式来进行采样。并且当 ϵ \epsilon ϵ 足够小且 K K K 足够大时,此公式采样得到的数据分布与真实数据分布的误差可以忽略不计。
采样不准确 在这里插入图片描述可以看到积分中乘了一个权重p(x),当在低密度区域,p(x)很小,那么该Fisher divergence 将被忽略,这种不准确可能使Langevin 动力学的采样过程从一开始就derail(出轨),从而无法产生高质量的样本。
解决第四节中提出的问题 用多尺度的噪声扰乱数据点,然后在噪声数据点noisy data points上训练基于分数的模型 s θ ( x , i ) s_θ(x,i) sθ(x,i)。在得到我们训练的noise-conditional score-based mode s θ ( x , i ) s_θ(x,i) sθ(x,i)之后,我们就可以使用Langevin Dynamics来进行采样了.i=L,L−1,⋯,1 . (相当于一个加噪和去噪的过程,和扩散模型相同)
6.1在第五部分提到了用多尺度的噪声扰乱数据点,并且是人为定义了L个方差逐渐变大的高斯噪声,那么L扩展到无限大该如何处理? 使用SDE(随机微分方程)来扰动数据
6.2那么随之而来的问题是对应无限噪声尺度该如何进行采样? 我们可以通过使用反向 SDE 类似地反转样本生成的扰动过程。注:在有限数量的噪声尺度下,我们可以通过使用annealed Langevin dynamics退火朗之万动力学反转扰动过程来生成样本,即使用朗之万动力学从每个噪声扰动分布中顺序采样。
6.3如何训练一个Time-Dependent Score-Based Model基于时间依赖分数的模型 s θ ( x , t ) \mathbf{s}_{\theta}(\mathbf{x}, t) sθ(x,t),使得 s θ ( x , t ) ≈ ∇ x l o g p t ( x ) \mathbf{s}_{\theta}(\mathbf{x}, t) \approx \nabla_{\mathbf{x}}log p_t(\mathbf{x}) sθ(x,t)xlogpt(x) 和以前一样,我们的 Fisher divergences 的加权组合可以使用score matching methods进行有效优化,例如去噪分数匹配和切片分数匹配denoising score matching and sliced score matching。一旦我们的基于分数的模型 s θ ( x , t ) s_θ(x,t) sθ(x,t) 被训练到最优,我们可以将其代入6.2中的Reverse SDE的表达式,以获得估计的Reverse SDE。还提出了一个 λ ( t ) = g 2 ( t ) λ(t)=g^2(t) λ(t)=g2(t) 的似然加权函数likelihood weighting function,来获得比自回归模型还强的似然。
6.4最后是reverse SDE的求解 提出了最简单的Euler-Maruyama method,还有其他的 Milstein method和stochastic Runge-Kutta methods。宋博士也提出了一个类似于Euler-Maruyama method的求解方法叫Predictor-Corrector samplers,更适合与求解reverse-time SDEs。预测器predictor每次选择一个合适的步长Δt<0,然后根据当前样本x(t)预测x(t+Δt)。然后根据基于分数的模型 s θ ( x , t + Δ t ) s_θ(x,t+Δt) sθ(x,t+Δt)运行几个校正corrector步骤steps来改进样本 x(t+Δt),使 x ( t + Δ t ) x(t+Δt) x(t+Δt) 成为来自 p t + Δ t ( x ) p_{t+Δt}(x) pt+Δt(x)的高质量样本。借助于PC方法和score-based models,可以比现在最好的GAN模型还强。
6.5尽管能够生成高质量样本,但基于 Langevin MCMC 和 SDE 求解器的采样器并未提供一种方法来计算基于分数的生成模型的精确对数似然exact log-likelihood。 介绍了一个基于常微分方程 (ODE) 的采样器,它允许进行精确的似然计算。当使用我们之前讨论的似然加权likelihood weighting( λ ( t ) = g 2 ( t ) λ(t)=g^2(t) λ(t)=g2(t))训练基于分数的模型,并使用变分反量化variational dequantization来获得离散图像的似然时,我们可以获得与最先进的自回归模型相当甚至更好的似然(所有这些都没有任何数据增强) 。
用于反问题求解的可控生成 主要原理是贝叶斯公式,使用场景如CIFAR-10的类条件生成,LSUN的图像修复Image inpainting,LSUN和FFHQ的图像着色Image colorization

看到这里想必大家也对基于分数的模型有了一个大致的概念,它其实和扩散模型很类似,那么具体有什么区别呢?

2、score-based models与DDPM扩散模型的联系与区别

diffusion-based models score-based models
联系 1、主要都是用多尺度噪声扰动数据
2、用于训练扩散概率模型的 ELBO 本质上等同于基于分数的生成建模中使用的分数匹配目标的加权组合。
3、通过将噪声尺度的数量推广到无穷大,他们进一步证明了基于分数的生成模型和扩散概率模型都可以看作是对由分数函数确定的随机微分方程的离散化discretizations to stochastic differential equations determined by score functions.。
4、可以说基于分数的模型和扩散模型是同一模型族的不同视角different perspectives of the same model family
区别 通过evidence lower bound (ELBO) 训练并使用一个学得的解码器进行采样 通过分数匹配训练并通过 Langevin 动力学采样

score-based models之所以能work的三个关键:
(1) 用多尺度噪声扰动数据,并为每个噪声尺度训练基于分数的模型;
(2) 对基于分数的模型使用 U-Net 架构(我们使用 RefineNet,因为它是 U-Net 的现代版本);
(3) 将 Langevin MCMC 应用于每个噪声尺度并将它们链接在一起。

不过注意:
用多尺度噪声扰动数据的想法绝不是基于分数的生成模型所独有的。它以前曾用于模拟退火simulated annealing、退火重要性采样annealed importance sampling、扩散概率模型diffusion probabilistic models、注入训练infusion training和生成随机网络的变分回溯variational walkback for generative stochastic networks等。

在所有这些工作中,扩散概率模型可能是最接近基于分数的生成建模的。扩散概率模型是 Jascha 和他的同事于 2015 年首次提出的分层潜变量模型,它通过学习变分解码器来逆转将数据扰动为噪声的离散扩散过程来生成样本。

在没有意识到这项工作的情况下,基于分数的生成模型被提出并从一个非常不同的角度独立地被激发。尽管都具有多尺度噪声的扰动数据,但当时基于分数的生成建模和扩散概率建模之间的联系似乎很肤浅,因为前者通过分数匹配训练并通过 Langevin 动力学采样,而后者通过证据训练下界evidence lower bound (ELBO) 并使用学习解码器进行采样。

2020 年,Jonathan Ho 及其同事显着提高了扩散概率模型的实证性能,并首次揭示了与基于分数的生成建模的更深层次联系。
他们表明,用于训练扩散概率模型的 ELBO 本质上等同于基于分数的生成建模中使用的分数匹配目标的加权组合。
此外,通过将解码器参数化为一系列具有 U-Net 架构的基于分数的模型,他们首次证明了扩散概率模型也可以生成与 GAN 相当或优于 GAN 的高质量图像样本。

受他们工作的启发,宋博士他们在 ICLR 2021 论文【1】中进一步研究了扩散模型和基于分数的生成模型之间的关系。
他们发现扩散概率模型的采样方法可以与基于分数的模型的退火 Langevin 动力学相结合,以创建统一且更强大的采样器(预测校正采样器Predictor-Corrector sampler)。
通过将噪声尺度的数量推广到无穷大,他们进一步证明了基于分数的生成模型和扩散概率模型都可以看作是对由分数函数确定的随机微分方程的离散化discretizations to stochastic differential equations determined by score functions.。
这项工作将基于分数的生成建模和扩散概率建模连接到一个统一的框架中。

总的来说,这些最新进展似乎表明,基于分数的多噪声扰动生成模型和扩散概率模型都是同一模型族的不同视角,就像波力学和矩阵力学是物理学史上量子力学的等价表述一样。
分数匹配和基于分数的模型的观点允许人们精确地计算对数似然,自然地解决反问题,并且直接连接到基于能量的模型、薛定谔桥Schrödinger bridges和最优传输optimal transport。
扩散模型的观点自然与 VAE、有损压缩相关,并且可以直接与变分概率推理相结合。
这篇博文侧重于第一种观点(即score-based models),但我强烈建议感兴趣的读者也了解扩散模型的另一种观点(即diffusion models)(参见 Lilian Weng的精彩博客)。

许多最近关于基于分数的生成模型或扩散概率模型的工作深受双方研究知识的影响(参见牛津大学研究人员策划的网站)。
尽管基于分数的生成模型和扩散模型之间存在着这种深厚的联系,但很难为它们都属于的模型家族提出一个总称。 DeepMind 的一些同事建议称它们为“生成扩散过程”(“Generative Diffusion Processes”)。这在未来是否会被社区采纳还有待观察。

3、score-based generative models的挑战

基于分数的生成模型有两个主要挑战。

首先,采样速度慢,因为它涉及大量的 Langevin 型迭代。
其次,使用离散数据分布不方便,因为分数仅在连续分布上定义。

第一个挑战可以通过对概率流 ODE 使用数值 ODE 求解器来部分解决但是以精度低为代价(一种类似的方法是去噪扩散隐式建模即(DDIM),参见【DDIM加速采样方法】公式推导加代码分析。Denoising Diffusion Implicit Models)。也可以学习从概率流 ODE 的潜在空间到图像空间的直接映射,如【3】中所示。然而,迄今为止所有这些方法都会导致样品质量变差。

第二个挑战可以通过在离散数据上学习自动编码器并在其连续的潜在空间上执行基于得分的生成建模来解决。
Jascha在扩散模型上的原始工作还为离散数据分布提供了离散的扩散过程,但其大规模应用程序的潜力尚未得到证明。

我坚信,在研究界的共同努力下,这些挑战将很快得到解决,基于分数的生成模型/基于扩散的模型将成为数据生成、密度估计、反问题求解、以及机器学习中的许多其他下游任务的最有用工具之一。
Reference:
【1】:Score-Based Generative Modeling through Stochastic Differential Equations
【2】:Generative Modeling by Estimating Gradients of the Data Distribution
【3】:Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed

猜你喜欢

转载自blog.csdn.net/qq_45934285/article/details/129991662
今日推荐