Diffusion模型详解 - 代码天地

1 引言

在上一篇《基于流的深度生成模型》中详解介绍了有关流的生成模型理论和方法。目前为止，基于GAN生成模型，基于VAE的生成模型，以及基于flow的生成模型它们都可以生成较高质量的样本，但每种方法都有其局限性。GAN在对抗训练过程中会出现模式崩塌和训练不稳定的问题；VAE则严重依赖于目标损失函数；流模型则必须使用专门的框架来构建可逆变换。本文主要介绍关于扩散模型，其灵感来自于非平衡热力学。它们定义了扩散步骤的马尔可夫链，将随机噪声缓慢地添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。与VAE或流模型不同，扩散模型是通过固定过程学习的，并且中间的隐变量与原始数据具有高维数维度。

优点： 扩散模型既易于分析又很灵活。要知道易处理性和灵活性是生成建模中两个相互冲突的目标。易于处理的模型可以进行分析评估和拟合数据，但它们不能轻易地描述丰富数据集中的结构。灵活的模型可以拟合数据中的任意结构，但是从这些模型中评估、训练或采样的成本会很高。
缺点： 扩散模型依赖于长马尔可夫扩散步骤链来生成样本，因此在时间和计算方面成本会很高。目前已经提出了新的方法来使该过程更快，但采样的整体过程仍然比GAN慢。

2 前向扩散过程

给定从真实数据分布 ${\bf{x}}_0\sim q({\bf{x}})$ 中采样的数据点，在一个前向扩散过程，在 $T$ 步里逐步向样本中添加少量高斯噪声，从而产生一系列噪声样本 ${\bf{x}}_1,\cdots,{\bf{x}}_T$ ，其步长由方差计划 $\{\beta_t\in(0,1)\}_{t=1}^T$ 来控制，则有 $q({\bf{x}}_t|{\bf{x}}_{t-1})=\mathcal{N}({\bf{x}}_t;\sqrt{1-\beta}{\bf{x}}_{t-1},\beta_t {\bf{I}})\quad q({\bf{x}}_{1:T}|{\bf{x}}_0)=\prod_{t=1}^Tq({\bf{x}}_t|{\bf{x}}_{t-1})$ 在扩散过程进行的时候，随着时长步长 $t$ 的增大，数据样本 ${\bf{x}}_0$ 逐渐失去其可区分的特征。最终，当 $T\rightarrow \infty$ , ${\bf{x}}_T$ 等价于各向同性高斯分布（各向同性的高斯分布即球形高斯分布，特指的是各个方向方差都一样的多维高斯分布，协方差为正实数与单位矩阵相乘）。

上述过程的一个很好的特性是可以使用重新参数化技巧以封闭形式在任意时间步长 $t$ 对 ${\bf{x}}_t$ 进行采样。令 $\alpha_t=1-\beta_t$ 和 $\bar{\alpha}_t=\prod_{i=1}^T \alpha_i$ ，进而则有： $\begin{aligned}{\bf{x}}_t&=\sqrt{\alpha_t}{\bf{x}}_{t-1}+\sqrt{1-\alpha_t}{\bf{z}}_{t-1}\\&=\sqrt{\alpha_t\alpha_{t-1}}{\bf{x}}_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}{\bf{\bar{z}}}_{t-2}\\&=\cdots\\&=\sqrt{\bar{\alpha}_t}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_t}{\bf{z}}\\q({\bf{x}}_t|{\bf{x}}_0)&=\mathcal{N}({\bf{x}}_t;\sqrt{\bar{\alpha}_t}{\bf{x}}_0,(1-\bar{\alpha}_t){\bf{I}})\end{aligned}$ 其中 ${\bf{z}}_{t-1},{\bf{z}}_{t-2},\cdots \sim\mathcal{N}({\bf{0}},{\bf{I}})$ ， ${\bar{\bf{z}}}_{t-2}$ 融合两个高斯分布。当合并两个具有不同方差 $\mathcal{N}({\bf{0}},\sigma^2_1{\bf{I}})$ 和 $\mathcal{N}({\bf{0}},\sigma^2_2{\bf{I}})$ 的高斯分布时，得到的新的高斯分布是 $\mathcal{N}({\bf{0}},(\sigma^2_1,\sigma_2^2){\bf{I}})$ ，其中合并的标准差为 $\sqrt{(1-\alpha_t)+\alpha_t(1-\alpha_{t-1})}=\sqrt{1-\alpha_{t}\alpha_{t-1}}$ 通常情况下，噪声越大更新的步长也会随着调大，则有 $\beta_1<\beta_2\cdots<\beta_T$ ，所以 $\bar{\alpha}_1>\cdots>\bar{\alpha}_T$ 。

3 更新过程

Langevin动力学是物理学中的一个概念，用于对分子系统进行统计建模。结合随机梯度下降，随机梯度朗之万动力学可以仅使用马尔可夫更新链中的梯度 $\nabla_{\bf{x}} \log p({\bf{x}})$ 从概率密度 $p({\bf{x}})$ 生成样本： ${\bf{x}}_t={\bf{x}}_{t-1}+\frac{\epsilon}{2}\nabla_{\bf{x}} \log p({\bf{x}}_{t-1})+\sqrt{\epsilon}{\bf{z}}_t,\quad {\bf{z}}_t\sim\mathcal{N}({\bf{0}},{\bf{I}})$ 其中 $\epsilon$ 为步长。当 $T\rightarrow \infty$ 时, $\epsilon\rightarrow 0$ , ${\bf{x}}$ _T则等于真实概率密度 $p({\bf{x}})$ 。与标准SGD相比，随机梯度Langevin动力学将高斯噪声注入到参数更新中，以避免陷入到局部最小值中。

4 反向扩散过程

如果将上述过程进行反转并从概率分布 $q({\bf{x}}_{t-1}|{\bf{x}}_t)$ 中进行采样，则能够从高斯噪声输入 ${\bf{x}}_T\sim \mathcal{N}({\bf{0}},{\bf{I}})$ 中重新构造真实样本。需要注意的是如果 $\beta_t$ 足够小， $q({\bf{x}}_{t-1},{\bf{x}}_t)$ 也将是高斯分布。但这需要使用整个数据集进行估计，因此需要学习一个模型 $p_\theta$ 来近似这些条件概率，以便进行反向扩散过程 $p_\theta({\bf{x}}_{0:T})=p({\bf{x}}_T)\prod_{t=1}^T p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)\quad p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)=\mathcal{N}({\bf{x}}_{t-1};\boldsymbol{\mu}_\theta({\bf{x}}_t,t),{ {\bf{\Sigma}}_\theta({\bf{x}}_t,t)})$ 当条件为 ${\bf{x}}_0$ 时，反向条件概率是容易估计处理的： $q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)=\mathcal{N}({\bf{x}}_{t-1};\boldsymbol{\mu}({\bf{x}}_t,{\bf{x}}_0),\tilde{\beta}_t{\bf{I}})$ 使用贝叶斯法则可以得到 $\begin{aligned}q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)&=q({\bf{x}}_{t}|{\bf{x}}_{t-1},{\bf{x}}_0)\frac{q({\bf{x}}_{t-1}|{\bf{x}}_0)}{q({\bf{x}}_t|{\bf{x}}_0)}\\&\propto\exp\left[-\frac{1}{2}\left(\frac{({\bf{x}}_t-\sqrt{\alpha_t}{\bf{x}}_{t-1})^2}{\beta_t}+\frac{({\bf{x}}_{t-1}-\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0)^2}{1-\bar{\alpha}_{t-1}}-\frac{({\bf{x}}_t-\sqrt{\bar{\alpha}_t}{\bf{x}}_0)^2}{1-\bar{\alpha}_t}\right)\right]\\&=\exp\left[-\frac{1}{2}\left(\frac{ {\bf{x}}^2_t-2\sqrt{\alpha_t}{\bf{x}}_t{\bf{x}}_{t-1}+\alpha_t{\bf{x}}_{t-1}^2}{\beta_t}+\frac{ {\bf{x}}_{t-1}^2-2\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0{\bf{x}}_{t-1}+\bar{\alpha}_{t-1}{\bf{x}}_0}{1-\bar{\alpha}_{t-1}}-\frac{({\bf{x}}_t-\sqrt{\bar{\alpha}_t}{\bf{x}}_0)^2}{1-\bar{\alpha}_t}\right)\right]\\&=\exp\left[-\frac{1}{2}\left(\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right){\bf{x}}^2_{t-1}-\left(\frac{2\sqrt{\alpha_t}}{\beta_t}{\bf{x}}_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}{\bf{x}}_0\right){\bf{x}}_{t-1}+C({\bf{x}}_t,{\bf{x}}_0)\right)\right]\end{aligned}$ 其中 $C({\bf{x}}_t,{\bf{x}}_0)$ 函数与 ${\bf{x}}_{t-1}$ 无关。按照标准高斯密度函数，均值和方差可以参数化如下 $\begin{aligned}\tilde{\beta}_t&=1\left/\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)\right.=1\left/\left(\frac{\alpha_t-\bar{\alpha}_t+\beta_t}{\beta_t(1-\bar{\alpha}_{t-1})}\right)\right.=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\cdot \beta_t\\\tilde{\boldsymbol{\mu}}_t({\bf{x}}_t,{\bf{x}}_0)&=\left(\frac{\sqrt{\alpha}_t}{\beta_t}{\bf{x}}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}{\bf{x}}_0\right)\left/\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)\right.\\&=\left(\frac{\sqrt{\alpha}_t}{\beta_t}{\bf{x}}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}{\bf{x}}_0\right)\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\cdot\beta_t\\&=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}{\bf{x}}_t+\frac{\sqrt{\bar{\alpha}_{t-1}\beta_t}}{1-\bar{\alpha}_t}{\bf{x}}_0\end{aligned}$ 将 ${\bf{x}}_0=\frac{1}{\sqrt{\bar{\alpha}_t}}({\bf{x}}_t-\sqrt{1-\bar{\alpha}_t}{\bf{z}}_t)$ 带入到以上公式中则有 $\begin{aligned}\boldsymbol{\tilde{\mu}}_t&=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}{\bf{x}}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}\frac{1}{\sqrt{\bar{\alpha}_t}}({\bf{x}}_t-\sqrt{1-\bar{\alpha}_t}{\bf{z}}_t)\\&=\frac{1}{\sqrt{\alpha_t}}\left({\bf{x}}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}{\bf{z}}_t\right)\end{aligned}$ 这种设置与VAE非常相似，因此可以使用变分下限来优化负对数似然，进而则有 $\begin{aligned}-\log p_\theta({\bf{x}}_0)&\le -\log p_\theta({\bf{x}}_0)+D_{\mathrm{KL}}(q({\bf{x}}_{1:T})|{\bf{x}}_0||p_\theta({\bf{x}}_{1:T}|{\bf{x}}_0))\\&=-\log p_\theta({\bf{x}}_\theta)+\mathbb{E}_{1:T\sim q({\bf{x}}_{1:T}|{\bf{x}}_0)}\left[\log \frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})/p_\theta({\bf{x}}_0)}\right]\\&=-\log p_\theta({\bf{x}}_0)+\mathbb{E}_q\left[\log \frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})}+\log p_\theta ({\bf{x}}_0)\right]\\&=\mathbb{E}_q\left[\log \frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})}\right]\\L_{\mathrm{VLB}}&=\mathbb{E}_{q({\bf{x}}_{0:T})}\left[\log \frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})}\right]\ge -\mathbb{E}_{q({\bf{x}}_0)}\log p_\theta({\bf{x}}_0)\end{aligned}$ 使用Jensen不等式也很容易得到相同的结果。假设要最小化交叉熵作为学习目标，则有 $\begin{aligned}L_{\mathrm{CE}}&=-\mathbb{E}_{q({\bf{x}}_0)}\log p_\theta({\bf{x}}_0)\\&=-\mathbb{E}_{q({\bf{x}}_0)}\log\left(\int p_\theta({\bf{x}}_{0:T})d {\bf{x}}_{1:T}\right)\\&=-\mathbb{E}_{q({\bf{x}}_0)}\log\left(\int q({\bf{x}}_{1:T}|{\bf{x}}_0)\frac{p_\theta({\bf{x}}_{0:T})}{q({\bf{x}}_{1:T}|{\bf{x}}_0)}d{\bf{x}}_{1:T}\right)\\&=-\mathbb{E}_{q({\bf{x}}_0)}\log\left(\mathbb{E}_{q({\bf{x}}_{1:T}|{\bf{x}}_0)}\frac{p_\theta({\bf{x}}_{0:T})}{q({\bf{x}}_{1:T}|{\bf{x}}_0)}\right)\\ &\le -\mathbb{E}_{q({\bf{x}}_{0:T})}\log\frac{p_\theta({\bf{x}}_{0:T})}{q({\bf{x}}_{1:T}|{\bf{x}}_0)}\\&=\mathbb{E}_{q({\bf{x}}_{0:T})}\left[\log\frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})}\right]=L_{\mathrm{VTB}}\end{aligned}$ 为了将方程中的每个项转换为可解析计算的，可以将目标进一步重写为几个KL散度和熵项的组合 $\begin{aligned}L_{\mathrm{TVB}}&=\mathbb{E}_{q({\bf{x}}_{0:T})}\left[\log \frac{q({\bf{x}}_{1:T}|{\bf{x}}_0)}{p_\theta({\bf{x}}_{0:T})}\right]\\&=\mathbb{E}_q\left[\log\frac{\prod_{t=1}^T q({\bf{x}}_t|{\bf{x}}_{t-1})}{p_\theta({\bf{x}}_T)\prod_{t=1}^T p_\theta({\bf{x}}_{t-1}|p({\bf{x}}_t))}\right]\\&=\mathbb{E}_q\left[-\log p_\theta({\bf{x}}_T)+\sum\limits_{t=1}^T\log \frac{q({\bf{x}}_t|{\bf{x}}_{t-1})}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)}\right]\\&=\mathbb{E}_q\left[-\log p_\theta({\bf{x}}_T)+\sum\limits_{t=2}^T \log\frac{q({\bf{x}}_{t}|{\bf{x}}_{t-1})}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_{t})}+\log\frac{q({\bf{x}}_1|{\bf{x}}_0)}{p_\theta({\bf{x}}_0|{\bf{x}}_1)}\right]\\&=\mathbb{E}_q\left[-\log p_\theta({\bf{x}}_T)+\sum\limits_{t=2}^T\log\left(\frac{q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)}\cdot\frac{q({\bf{x}}_t|{\bf{x}}_0)}{q({\bf{x}}_{t-1}|{\bf{x}}_0)}\right)+\log\frac{q({\bf{x}}_1|{\bf{x}}_0)}{p_\theta({\bf{x}}_0|{\bf{x}}_1)}\right]\\&=\mathbb{E}_q\left[-\log p_\theta({\bf{x}}_T)+\sum\limits_{t=2}^T\log \frac{q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)}+\sum\limits_{t=2}^T\log \frac{q({\bf{x}}_t|{\bf{x}}_0)}{q({\bf{x}}_{t-1}|{\bf{x}}_0)}+\log \frac{q({\bf{x}}_1|{\bf{x}}_0)}{p_\theta({\bf{x}}_0|{\bf{x}}_1)}\right]\\&=\mathbb{E}_q\left[-\log p_\theta({\bf{x}}_T)+\sum\limits_{t=2}^T\log \frac{q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)}+\log\frac{q({\bf{x}}_T|{\bf{x}}_0)}{q({\bf{x}}_1|{\bf{x}}_0)}+\log \frac{q({\bf{x}}_1|{\bf{x}}_0)}{p_\theta({\bf{x}}|{\bf{x}}_1)}\right]\\&=\mathbb{E}_q\left[\log \frac{q({\bf{x}}_T|{\bf{x}}_0)}{p_\theta({\bf{x}}_T)}+\sum\limits_{t=2}^T\log \frac{q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)}{p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)}-\log p_\theta({\bf{x}}_0|{\bf{x}}_1)\right]\\&=\mathbb{E}_q\left[D_{\mathrm{KL}}(q({\bf{x}}_T|{\bf{x}}_0)||p_\theta({\bf{x}}_T))+\sum\limits_{t=2}^T D_{\mathrm{KL}}(q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)||p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t))-\log p_\theta({\bf{x}}_0|{\bf{x}}_1)\right]\end{aligned}$ 分别标记变分下界损失中的每个分量为 $\begin{aligned}L_{\mathrm{VLB}}&=L_T+L_{T-1}+\cdots+L_{0}\\L_T&=D_{\mathrm{KL}}(q({\bf{x}}_T|{\bf{x}}_0)||p_\theta({\bf{x}}_T))\\L_t&=D_{\mathrm{KL}}(q({\bf{x}}_t|{\bf{x}}_{t+1},{\bf{x}}_0)||p_\theta({\bf{x}}_t|{\bf{x}}_{t+1}))\\L_0&=-\log p_\theta({\bf{x}}_0|{\bf{x}}_1)\end{aligned}$ $L_{\mathrm{VLB}}$ 中的每个KL项（除了 $L_0$ ）都测量两个高斯分布之间的距离，因此可以以闭式解来计算它们。 $L_T$ 是常数,在训练过程中可以被忽略，其原因在于 $q$ 没有可学习的参数并且 ${\bf{x}}_T$ 是高斯噪声, $L_0$ 可以从 $\mathcal{N({\bf{x}}_0,\boldsymbol{\mu}_\theta({\bf{x}}_1,1),{\bf{\Sigma}}_\theta({\bf{x}}_1,1)}$ 中推导出来。

5 训练损失的参数化

当需要学习一个神经网络来逼近反向扩散过程中的条件概率分布 $p_\theta({\bf{x}}_{t-1}|{\bf{x}}_t)=\mathcal{N}({\bf{x}}_{t-1};\boldsymbol{\mu}_\theta({\bf{x}}_t,t),{\bf{\Sigma}}_\theta({\bf{x}}_t,t))$ 时，即想训练 $\boldsymbol{\mu}_\theta$ 预测 $\tilde{\boldsymbol{\mu}}_t=\frac{1}{\sqrt{\alpha_t}}\left({\bf{x}}-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}{\bf{z}}_t\right)$ 。因为 ${\bf{x}}_t$ 在训练时可用作输入，可以重新参数化高斯噪声项，以使其从时间步长 $t$ 的输入 ${\bf{x}}_t$ 中预测 ${\bf{z}}_t$ ：
$\begin{aligned}{\boldsymbol{\mu}}_\theta({\bf{x}}_t,t)&=\frac{1}{\sqrt{\alpha_t}}\left({\bf{x}}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}{\bf{z}}_\theta({\bf{x}}_t,t)\right)\\{\bf{x}}_{t-1}&=\mathcal{N}\left({\bf{x}}_{t-1};\frac{1}{\sqrt{\alpha_t}}\left({\bf{x}}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}{\bf{z}}_\theta({\bf{x}}_t,t)\right),{\bf{\Sigma}}_\theta({\bf{x}}_t,t)\right)\end{aligned}$ 损失项 $L_t$ 是被参数化目的是最小化来自 $\tilde{\boldsymbol{\mu}}$ 的差异 $\begin{aligned}L_t&=\mathbb{E}_{ {\bf{x}}_0,{\bf{z}}}\left[\frac{1}{2\|{\bf{\Sigma}}_\theta({\bf{x}}_t,t)\|_2^2}\|\tilde{\boldsymbol{\mu}}_t({\bf{x}}_t,{\bf{x}}_0)-{\boldsymbol{\mu}}_\theta({\bf{x}}_t,t)\|^2\right]\\&=\mathbb{E}_{ {\bf{x}}_0,{\bf{z}}}\left[\frac{1}{2\|{\bf{\Sigma}}_\theta\|_2^2}\left\|\frac{1}{\sqrt{\alpha}_t}\left({\bf{x}}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}}}{\bf{z}}\right)-\frac{1}{\sqrt{\alpha}_t}\left({\bf{x}}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}}}{\bf{z}}_\theta({\bf{x}}_t,t)\right)\right\|\right]\\&=\mathbb{E}_{ {\bf{x}}_0,{\bf{z}}}\left[\frac{\beta^2_t}{2\alpha_t(1-\bar{\alpha}_t)\|{\bf{\Sigma}}_\theta\|_2^2}\|{\bf{z}}_t-{\bf{z}}_\theta({\bf{x}}_t,t)\|^2\right]\\&=\mathbb{E}_{ {\bf{x}}_0,{\bf{z}}}\left[\frac{\beta^2_t}{2\alpha_t(1-\bar{\alpha}_t)\|{\bf{\Sigma}}_\theta\|_2^2}\|{\bf{z}}_t-{\bf{z}}_\theta(\sqrt{\bar{\alpha}_t}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_t}{\bf{z}}_t,t)\|^2\right]\end{aligned}$ 根据经验Ho等人的经验，发现在忽略加权项的简化目标下，训练扩散模型效果更好： $L^{\mathrm{simple}}_t=\mathbb{E}_{ {\bf{x}}_0,{\bf{z}}_t}\left[\|{\bf{z}}_t-{\bf{z}}_\theta(\sqrt{\bar{\alpha}_t}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_t}{\bf{z}}_t,t)\|^2\right]$ 所以最终简化后的目标函数是： $L_{\mathrm{simple}}=L^{\mathrm{simple}}+C$ 其中 $C$ 是不取决于 $\theta$ 的常数。

6 噪声评分条件网络（NCSN）

Song和Ermon等人提出了一种基于分数的生成建模方法，其中样本是通过Langevin动力学使用分数匹配估计的数据分布梯度生成的。每个样本 $\bf{x}$ 的密度概率得分定义为其梯度 $\nabla_{\bf{x}}\log p({\bf{x}})$ 。训练一个分数网络 $s_\theta:\mathbb{R}^D\rightarrow\mathbb{R}^D$ 来估计它。为了在深度学习设置中使用高维数据使其可扩展，有研究建议使用去噪分数匹配（向数据添加预先指定的小噪声）或切片分数匹配。Langevin动力学可以仅使用迭代过程中的分数从概率密度分布中采样数据点 $\nabla_{\bf{x}}\log p({\bf{x}})$ 。然而，根据流形假设，大多数数据预计集中在低维流形中，即使观察到的数据可能看起来只是任意高维。由于数据点无法覆盖整个空间 $\mathbb{R}^D$ ，因此对分数估计产生了负面影响。在数据密度低的区域，分数估计不太可靠。添加一个小的高斯噪声使扰动的数据分布覆盖整个空间后，分数评估网络的训练变得更加稳定。 Song和Ermon等人通过用不同级别的噪声扰动数据来改进它，并训练一个噪声条件评分网络来共同估计所有扰动数据在不同噪声级别下的分数。

7 $\beta_t$ 和 ${\bf{\Sigma}}_\theta$ 的参数化

参数化 $\beta_t$ 的过程中，Ho等人将前向方差被设置为一系列线性增加的常数，从 $\beta_1=10^{-4}$ 到 $\beta_T=0.02$ 。与 $[- 1, 1]$ 之间的归一化图像像素值相比，它们相对较小。在此设置下实验中的扩散模型生成了高质量的样本，但仍然无法像其他生成模型那样实现具有竞争力。Nichol和Dhariwal等人提出了几种改进技术来帮助扩散模型获得更低的NLL。其中一项改进是使用基于余弦的方差计划。调度函数的选择可以是任意的，只要它在训练过程的中间提供一个近线性的下降和围绕 $t = 0$ 和 $t = T$ 的细微变化 $\beta_t=\mathrm{clip}(1-\frac{\bar{\alpha}_t}{\alpha_{t-1}},0.999)\quad \bar{\alpha}_t=\frac{f(t)}{f(0)} \quad \mathrm{where}\text{ } f(t)=\cos(\frac{t/T+s}{1+s}\cdot \frac{\pi}{2})$ 其中当 $t = 0$ 时小偏移量 $s$ 是为了防止 $\beta_t$ 接近时太小。
参数化 ${\bf{\Sigma}}_\theta$ 的过程中，Ho等人选择固定 $\beta_t$ 为常量，而不是使它们可学习并设置 ${\bf{\Sigma}}_\theta({\bf{x}}_t,t)=\sigma^2_t{\bf{I}}$ , 其中 $\sigma_t$ 是不可学习的。实验发现学习对角方差 ${\bf{\Sigma}}_\theta$ 会导致训练不稳定和样本质量下降。Nichol和Dhariwal等人提出将学习 ${\bf{\Sigma}}_\theta({\bf{x}}_t,t)$ 作为 $\beta$ 和 $\tilde{\beta}_t$ 之间的插值，通过模型预测混合向量 ${\bf{v}}$ ，则有： ${\bf{\Sigma}}_\theta({\bf{x}}_t,t)=\exp({\bf{v}}\log \beta_t+(1-{\bf{v}})\log\tilde{\beta}_t)$ 简单的目标 $L_{\mathrm{simple}}$ 并不依赖于 ${\bf{\Sigma}}_\theta$ 。为了增加依赖性，他们构建了一个混合目标 $L_{\mathrm{hybrid}}=L_{\mathrm{simple}}+\lambda L_{\mathrm{VLB}}$ ，其中 $\lambda=0.001$ 很小并且停止在 $\boldsymbol{\mu}_\theta$ 的梯度，以便 $L_{\mathrm{VLB}}$ 仅指导 ${\bf{\Sigma}}_\theta$ 的学习。可以观察到，由于梯度噪声，优化 $L_{\mathrm{VLB}}$ 是非常困难的，因此他们建议使用具有重要性采样的时间平均平滑版本。

8 加速扩散模型采样

通过遵循反向扩散过程的马尔可夫链从DDPM生成样本非常慢，可能长达一个或几千个步骤。从DDPM中采样 $50000$ 个大小为 $32\times32$ 的图像大约需要 $20$ 小时，但从Nvidia 2080 Ti GPU上的GAN中采样不到一分钟。一种简单的方法是运行跨步抽样计划，每一步都进行抽样更新，以减少中间的采样过程。对于另一种方法，需要重写 $q_\sigma({\bf{x}}_t|{\bf{x}}_t,{\bf{x}}_0)$ 以通过所需的标准偏差 $\sigma_t$ 进行参数化： $\begin{aligned}{\bf{x}}_{t-1}&=\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_{t-1}}{\bf{z}}_{t-1}\\&=\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_{t-1}-\sigma^2_t{\bf{z}}_t}+\sigma_t{\bf{z}}\\&=\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_{t-1}-\sigma^2_t}\frac{ {\bf{x}}_t-\sqrt{\bar{\alpha}_t}{\bf{x}}_0}{\sqrt{1-\bar{\alpha}_t}}+\sigma_t{\bf{z}}\\q_\sigma&({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)=\mathcal{N}\left({\bf{x}}_{t-1};\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_{t-1}-\sigma^2_t}\frac{ {\bf{x}}_t-\sqrt{\bar{\alpha}_t}{\bf{x}}_0}{1-\bar{\alpha}_t},\sigma^2_t{\bf{I}}\right)\end{aligned}$ 因为 $q({\bf{x}}_{t-1}|{\bf{x}}_t,{\bf{x}}_0)=\mathcal{N}({\bf{x}}_{t-1};\tilde{\boldsymbol{\mu}}({\bf{x}}_t,{\bf{x}}_0,\tilde{\beta}_t{\bf{I}}))$ ，因此则有 $\tilde{\beta}_t=\sigma^2_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\cdot \beta_t$ 令 $\sigma^2_t=\eta \cdot \tilde{\beta}_t$ ，进而可以通过调整为超参数 $\eta\in \mathbb{R}^{+}$ 来控制采样随机性。 $\eta=0$ 的特殊情况使采样过程具有确定性，这样的模型被命名为去噪扩散隐式模型（DDIM）。DDIM具有相同的边际噪声分布，但确定性地将噪声映射回原始数据样本。在生成过程中，只对扩散步骤的一个子集 $S$ 进行采样为 $\{\tau_1,\cdots,\tau_S\}$ ，推理过程变为： $q_{\sigma,\tau}({\bf{x}}_{\tau_{i-1}}|{\bf{x}}_{\tau_t},{\bf{x}}_0)=\mathcal{N}({\bf{x}}_{\tau_{i-1}};\sqrt{\bar{\alpha}_{t-1}}{\bf{x}}_0+\sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2}\frac{ {\bf{x}}_{\tau_i}-\sqrt{\bar{\alpha}_t}{\bf{x}}_0}{\sqrt{1-\bar{\alpha}_t}},\sigma^2_t{\bf{I}})$ 可以观察到DDIM在较小采样数的情况下可以产生最佳质量的样本，而DDPM在较小采样数的情况下表现要差得多。使用 DDIM可以将扩散模型训练到任意数量的前向步骤，但只能从生成过程中的步骤子集进行采样。总结来说，与DDPM相比，DDIM优点如下：

使用更少的步骤生成更高质量的样本。
由于生成过程是确定性的，因此具有“一致性”属性，这意味着以相同隐变量为条件的多个样本应该具有相似的高级特征。
由于一致性，DDIM可以在隐变量中进行语义上有意义的插值。

9 条件生成

在ImageNet数据上训练生成模型时，通常会生成以类标签为条件的样本。为了明确地将类别信息纳入扩散过程，Dhariwal和Nichol对噪声图像 ${\bf{x}}_t$ 训练了一个分类器 $f_\phi(y|{\bf{x}}_t,t)$ ，并使用梯度 $\nabla_{ {\bf{x}}} \log f_{\phi}(y|{\bf{x}}_t,t)$ 来引导扩散采样过程朝向目标类别标签 $y$ 。消融扩散模型 (ADM) 和带有附加分类器引导的模型 (ADM-G) 能够获得比当前最好生成模型（BigGAN）更好的结果。此外，Dhariwal和Nichol等人通过对UNet架构进行一些修改，显示出比具有扩散模型的GAN更好的性能。模型架构修改包括更大的模型深度/宽度、更多注意力头、多分辨率注意力、用于上/下采样的BigGAN残差块、残差连接重新缩放和自适应组归一化 (AdaGN)。