大一统视角理解扩散模型(三)

7.『Drawbacks to Consider』

尽管扩散模型在最近两年成功出圈,引爆了业界,学术界甚至普通人对文本生成图像的AI模型的关注,但扩散模型这个体系本身依旧存在着一些缺陷:

  1. 扩散模型本身尽管理论框架已经比较完善,公式推导也十分优美。但仍然非常不直观。最起码从一个完全噪声的输入不断优化的这个过程和人类的思维过程相去甚远。
  2. 扩散模型和GAN或者VAE相比,所学的潜在向量不具备任何语义和结构的可解释性。上文提到了扩散模型可以看做是特殊的MHVAE,但里面每一层的潜在向量间都是线性高斯的形式,变化有限。
  3. 而扩散模型的潜在向量要求维度与输入一致这一点,则更加死地限制住了潜在向量的表征能力。
  4. 扩散模型的多步迭代导致了扩散模型的生成往往耗时良久。

不过学术界对以上的一些难题其实也提出了不少解决方案。比如扩散模型的可解释性问题。笔者最近就发现了一些工作将score-matching直接应用在了普通VAE的潜在向量的采样上。这是一个非常自然的创新点,就和数年前的flow-based-vae一样。而耗时良久的问题,今年ICLR的最佳论文也将采样这个问题加速和压缩到了几十步内就可以生成非常高质量的结果。

但是对于扩散模型在文本生成领域的应用最近似乎还不多,除了prefix-tuning的作者xiang-lisa-li的一篇论文[3]

之外笔者暂未关注到任何工作。而具体来讲,如果将扩散模型直接用在文本生成上,仍有诸多不便。比如输入的尺寸在整个扩散过程必须保持一致就决定了使用者必须事先决定好想生成的文本的长度。而且做有引导的条件生成还好,要用扩散模型训练出一个开放域的文本生成模型恐怕难度不低。

本篇笔记着重的是在探讨大一统角度下的扩散模型推断。但具体对score matching如何训练,如何引导扩散模型生成我们想要的条件分布还没有写出来。笔者打算在下一篇探讨最近一些将扩散模型应用在受控文本生成领域的方法调研里详细记录和比较一下

8.『补充』

关于为什么扩散核是高斯变换的扩散过程的逆过程也是高斯变换的问题,来自清华大神的一篇知乎回答里[4] 给出了比较直观的解释。其中第二行是将p_t-1和p_t近似。第三行是对logpt(x_t-1)使用一阶泰勒展开消去了logpt(xt)。第四行是直接代入了q(xt|xt-1)的表达式。于是我们得到了一个高斯分布的表达式。

                                                     扩散的逆过程也是高斯分布

在式94和式125,我们都将对真实高斯分布q的均值mu_q的近似mu_theta建模成了与我们所推导出的mu_q一致的形式,并且将方差设置为了与q的方差一致的形式。直观上来讲,这样建模的好处很多,一方面是根据KL散度对两个高斯分布的解析式来说,这样我们可以约掉和抵消掉绝大部分的项,简化了建模。另一方面真实分布和近似分布都依赖于xt。在训练时我们的输入就是xt,采取和真实分布形式一样的表达式没有泄漏任何信息。并且在工程上DDPM也验证了类似的简化是事实上可行的。但实际上可以这样做的原因背后是从2021年以来的一系列论文里复杂的数理证明所在解释的目标。 同样引用清华大佬[4]的回答:

                                   DDPM里简化去噪的高斯分布的做法其实蕴含着深刻的道理

在DDPM里,其最终的优化目标是epsilon_t而不是epsilon_0。即预测的误差到底是初始误差还是某个时间步上的初始误差。谁对谁错?实际上这个误解来源于我们对xt关于x0的表达式的求解中的误解。从式63开始的连续几步推导,都应用到了一个高斯性质,即两个独立高斯分布的和的均值与方差等于原分布的均值和与方差和。而实质上我们在应用重参数化技巧求xt的过程中,是递归式的不断引入了新的epsilon来替换递归中的x_n里的epsilon。那么到最后,我们所得到的epsilon无非是一个囊括了所有扩散过程中的epsilon。这个噪声即可以说是t,也可以说是0,甚至最准确来说应该不等于任何一个时间步,就叫做噪声就好!

                                                                   DDPM的优化目标

  • 关于对证据下界的不同简化形式。其中我们提到第二种对噪声的近似是DDPM所采用的建模方式。但是对初始输入的近似其实也有论文采用。也就是上文提及的将扩散模型应用在可控文本生成的论文里[3]所采用的形式。该论文每轮直接预测初始Word-embedding。而第三种score-matching的角度可以参照SongYang博士的系列论文[5]来看。里面的优化函数的形式用的是第三种。
  • 本篇笔记着重于讲述扩散模型的变分下界的公式推导,关于扩散模型与能量模型,朗之万动力学,随机微分方程等一系列名词的关系本篇笔记并无涉及。 笔者将在另外一篇笔记里梳理相关的理解。

参考

  1. ^Improving Variational Inference with Inverse Autoregressive Flow https://arxiv.org/abs/1606.04934
  2. ^Deep Unsupervised Learning using Nonequilibrium Thermodynamics https://arxiv.org/abs/1503.03585
  3. ^abDiffusion-LM Improves Controllable Text Generation https://arxiv.org/abs/2205.14217
  4. ^abdiffusion model最近在图像生成领域大红大紫,如何看待它的风头开始超过GAN?- 我想唱high C的回答 - 知乎 https://www.zhihu.com/question/536012286/answer/2533146567
  5. ^SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS https://arxiv.org/abs/2011.13456

猜你喜欢

转载自blog.csdn.net/xifenglie123321/article/details/131986727