DDPM：Denoising Diffusion Probabilistic Model，去噪扩散概率模型

本文参考：一个视频看懂扩散模型DDPM原理推导|AI绘画底层模型_哔哩哔哩_bilibili

1、大概原理

从右往左 $x_0\rightarrow x_T$ 为正向加噪过程，从左往右 $x_t\rightarrow x_0$ 为逆向降噪过程。

在正向过程中不断加噪，经过T次之后得到 $x_T$ ，我们希望 $x_T\sim N(0,1)$

这样在推理过程中，我们可以从 $N(0,1)$ 随机取出 $x_T{'}$ （加‘ 表明这个是新值）。

如果我们能学得 $x_t\rightarrow x_{t-1}$ 的降噪方法，就可以最终通过 $x_T{'}\rightarrow x_0{'}$ 的新图片。

2、扩散模型的降噪方法预测什么

现在就是需要学 $x_t\rightarrow x_{t-1}$ 的降噪方法，DDPM算法不是直接学预测 $x_{t-1}$ 值的方法，而是预测 $x_{t-1}$ 的条件概率分布 $p(x_{t-1}|x_t)$ ，然后从分布中取值得到 $x_{t-1}$ 的值。此方法类似于deepar预测方法，预测的是分布而不是值。

那么为什么去预测分布而不是确切的 $x_{t-1}$ 的值？

因为有了分布之后就可以采样取出 $x_{t-1}{'}$ ，模型就有了随机性。

进一步，假如得到 $p(x_{t-2}|x_{t-1})$ ，就可以抽样得到 $x_{t-2}{'}$ ，这样一步步下去就可以从 $x_T{'}\rightarrow x_0{'}$ 。所以，我们要学习的是p的分布，而不是确切的某张图。

结论：学习过程全程是在预测分布p。

后续我们会看到模型在预测噪音，这个噪音不是 $x_t$ 和 $x_{t-1}$ 之间的噪音，而是正态分布p中的 $\mu$ 计算时涉及到的噪音 $\varepsilon$ 。

所以，我们通过预测 $\varepsilon$ 得到 $\mu$ ，进而得到p。也验证了我们的结论，即：学习过程全程是在预测分布p。

3、条件概率分布的拆解

公式1： $p(x_{t-1}|x_t)=\frac{p(x_t|x_{t-1})\cdot p(x_{t-1})}{p(x_t)}$ ，根据贝叶斯公式对最初的条件概率分布进行了转换，新得到的算式包含了3个概率分布。

（1）第1个p的计算

第1个p为： $p(x_t|x_{t-1})$

从 $x_{t-1}$ 到 $x_t$ 为加躁过程中的概率分布，因为加躁过程是事先定义的，所以概率分布p也是可以被定义的。

现在我们定义加躁过程如下：

公式2： $x_t=\sqrt{\alpha _t}\cdot x_{t-1} + \sqrt{\beta_t}\varepsilon _t$ ，其中 $\varepsilon _t\sim N(0,1)$ 的噪音， $\beta_t=1-\alpha_t$ 。

因为 $\varepsilon _t\sim N(0,1)$ ，所以 $\sqrt{\beta_t} \varepsilon_t \sim N(0, \beta_t)$ 。（ps：方差需要取平方）

可以看出 $\beta_t$ 为噪音的方差，它需要非常小接近0。只有加的噪音很小，前向、后向才是服从正态分布的。

进一步推导， $x_t \sim N(\sqrt{\alpha_t} \cdot x_{t-1}, \beta_t)$ ，即：

公式3： $p(x_t|x_{t-1}) \sim N(\sqrt{\alpha_t} \cdot x_{t-1}, \beta_t)$ 。

（2）第3个p的计算

第3个p为： $p(x_t)$ ，它和第2个p是类似的。如果找到一个的计算方法，那么另一个也可以类似得到。

上一步我们得到每一步加躁过程的公式2，以及每一步加躁的条件概率分布公式3。

针对加躁过程， $x_0 \rightarrow x_t \rightarrow \cdots \rightarrow x_{t-1} \rightarrow x_t$ ，所以理论上可以用 $x_0$ 来推导出 $x_t$ 。

对公式1进行改造：

公式4： $p(x_{t-1}|x_t,x_0)=\frac{p(x_t|x_{t-1},x_0)\cdot p(x_{t-1}|x_0)}{p(x_t|x_0)}$

因为加躁过程是马尔可夫过程，所以 $p(x_t|x_{t-1},x_0)$ 只跟前一步有关，和再前一步无关，即和 $x_0$ 也无关，所以 $p(x_t|x_{t-1},x_0)=p(x_t|x_{t-1})$

而 $p(x_t|x_0)$ 是从 $x_0$ 一步步得到 $x_t$ ，所以不能再做简化。进而，公式4简化为：

公式5： $p(x_{t-1}|x_t,x_0)=\frac{p(x_t|x_{t-1})\cdot p(x_{t-1}|x_0)}{p(x_t|x_0)}$

现在重新开始计算新的第3个p的值，从公式2开始推导如下（ps：括号表示其中含有部分参数但是未写出来，省略不重要的信息）：

$x_t=\sqrt{\alpha_t} \cdot x_{t-1} + \sqrt{\beta_t} \cdot \varepsilon_t \\ =\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}} \cdot x_{t-2}+\sqrt{\beta_{t-1} }\cdot \varepsilon_{t-1}) + \sqrt{\beta_t} \cdot \varepsilon_t \\ = \cdots \\ =\sqrt{\alpha_t \cdots \alpha_1} \cdot x_0 + ()\varepsilon_t + \cdots + ()\varepsilon_2 + ()\varepsilon_1 \\ = \sqrt{\alpha_t \cdots \alpha_1} \cdot x_0 + ()\varepsilon$

最后，经过不严谨的推导我们给出官方结果：

公式6： $p(x_t|x_0) \sim N(\sqrt{\bar{\alpha_t}} \cdot x_0, (1- \bar{\alpha_t}) \cdot \varepsilon_t ^{2})$ ，其中 $\bar{\alpha_t} = \alpha_t \cdots \alpha_0$ 表示连乘。

（3）扩散公式求解

上一步求得 $p(x_t|x_0)$ ，那么也可以类似求得 $p(x_{t-1}|x_0)$ 。

直接给出公式4的官方结果：

公式7： $p(x_{t-1}|x_t, x_0) \sim N(\bar \mu (x_0,x_t), \tilde{\beta_t})$

其中 $\tilde{\beta_t}$ 是超参， $\bar{\mu} (x_0,x_t)$ 的公式见如下：

公式8： $\bar{\mu }(x_0,x_t)=\frac{\sqrt{\bar{\alpha_{t-1}}} \cdot \beta_t}{1-\bar{\alpha_t}} \cdot x_0 + \frac{\sqrt{\alpha_t} \cdot(1-\bar{\alpha_{t-1}})}{1-\bar{\alpha_t}} \cdot x_t$

因为 $\tilde{\beta_t}$ 固定，所以求 $p(x_{t-1}|x_t,x_0)$ 的任务就变成了求 $\bar{\mu} (x_0,x_t)$ 。

如果有了 $\bar{\mu }(x_0,x_t)$ ，那么根据如下公式可以得到预测的推理值：

公式9： $x_{t-1}=\bar{\mu }(x_0, x_t)+ \sqrt{\tilde{\beta_t}} \cdot \varepsilon _t$ ， $\varepsilon _t \sim N(0,1)$

如果直接根据公式7从 $p(x_{t-1}|x_t,x_0)$ 中取出一个 $x_{t-1}$ ，该过程是不可导的（直接通过python包输入均值、方差取值的方式），那么逆向过程有问题，所以通过重参数技巧转换为公式9这样一个可求导的公式来表达 $x_{t-1}$ 。

在推理阶段 $x_0$ 就是我们最终想要的值，该值未知，所以需要转换为已知因子的公式。

公式6经过重参数技巧转换后如下：

公式10： $x_t=\sqrt{\bar{\alpha_t}} \cdot x_0 + \sqrt{1-\bar{\alpha_t}} \cdot \varepsilon _t$ ，进而得到:

公式11： $x_0=\frac{1}{\sqrt{\bar{\alpha_t}}}(x_t - \sqrt{1-\bar{\alpha_t}} \cdot \varepsilon _t)$ ，这其中的t为当前加噪阶段数，会变化。同时，这个 $x_0$ 是中间过程的参数值，不可以作为最终的预测值，因为推理的p过程需要遵循马尔可夫过程，所以必须一步步推导到 $x_0$ 。

在公式7中，未知值是 $\bar{\mu} (x_0,x_t)$ ，而该值中的未知值是 $x_0$ ，而 $x_0$ 中的未知值是 $\varepsilon _t$ ，该值无法通过现有公式计算推导得到。

于是我们借助UNet网络，输入 $x_t$ ，输出 $\varepsilon _t$ 。

将公式11代入公式8，可得到：

公式12： $\bar{\mu }(x_0, x_t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha_t}}} \cdot \varepsilon_t)$ ，公式中除了 $\varepsilon$ 其他均为已知。

而 $\varepsilon$ 是通过UNet网络预测出来的，可以表示为 $\varepsilon _\theta (x_t, t)$ ， $\theta$ 为UNet模型参数。

*************扩散模型通过UNet网络得到预测图像的过程**************：

$UNet \rightarrow \varepsilon _t \rightarrow x_0 -> \bar{\mu }(x_0,x_t) \rightarrow p(x_{t-1}|x_t,x_0) \rightarrow x_{t-1}{'} \rightarrow \cdots \rightarrow x_0{'}$

以上就是扩散模型DDPM最重要的逻辑。

4、模型训练

根据公式12可知，UNet网络训练的是正态分布的噪音 $\varepsilon$ 。

问题1：模型训练时的输入输出？

答案：输入 $x_t$ ，输出 $\varepsilon _t$ 。

问题2：那么哪个过程进行UNet网络参数的训练呢？

答案：加噪过程。加噪过程是训练阶段，降噪过程是推理阶段。

根据公式2可知，加噪过程的噪音是实现定义好的，所以我们可以比较预测的噪音 $\hat{\varepsilon }$ 和真实 $\varepsilon$ 的KL散度计算loss值，在官方说明中KL散度公式一通推导后可简化为计算这两个值的mse值。

问题3：训练时是否正向一步步推导的？

答案：不需要。在训练过程中，根据公式10 $x_t=\sqrt{\bar{\alpha_t}} \cdot x_0 + \sqrt{1-\bar{\alpha_t}} \cdot \varepsilon _t$ 可知， $x_t$ 可以通过 $\bar{\alpha_t}$ ， $x_0$ ， $\varepsilon _t$ ， $t$ 这4个值计算得到。