Diffusion Model(扩散模型)

一、功能(解决问题)

1.根据文字生成图片

在这里插入图片描述

2.根据给定的图片生成相似风格画作

3.图片延展

二、发展过程

1.2015年斯坦福大学四位研究者提出

2.2020年底加州伯克利学者改进

3.2021年OpenAI结合CLIP做了进一步优化,实现了诸多AI作画功能

三、应用:Dalle2(2021-2022)

目前非常火爆的AI作画工具。

DALL·E 2

四、类比(图像生成模型)

当前有四大生成模型:生成对抗模型、变微分自动编码器、流模型以及扩散模型。扩散模型(diffusion models)是当前深度生成模型中新SOTA(State of the art)。扩散模型在图片生成任务中超越了原SOTA:GAN,并且在诸多应用领域都有出色的表现。

1.生成对抗网络(GAN)【生成器+判别器】

主要和GAN做一个对比,目前主流的为Diffusion,原因如下。

1)GAN要训练双网络,难度较大,容易不收敛,多样性差(训练生成器),关注方向为骗过判别器(关注点偏)。

2)Diffusion网络方式更简单,GAN不好观察损失。

2.变微分自编码器(VAE)

3.流模型(Flow-based model)

五、原理:扩散现象

物理:物质分子从高浓度向低浓度区域转移,直到均匀分布。

AI:由熵增定律驱动,先给一幅图片增加噪声,让其变得极其混乱,再训练AI把混乱的照片变回有序(实现图片生成)。

六、实现方式

 1.前向过程(加噪)

1)不断往输入数据中增加噪声,最后变为纯噪声(#噪声(Noise):是真实标记与数据集中的实际标记间的偏差。)。

2)每一个时刻都要增加高斯噪声,后一时刻都是前一时刻增加噪声得到。

3)这个过程可以看做不断构建标签的过程。

       使用马尔科夫链进行的前向扩散过程,通过每次加入一点噪声生成一个样本

        

高斯分布:

前向过程是不断加噪的过程,加入的噪声随着时间步增加增多,根据马尔可夫定理,加噪后的这一时刻与前一时刻的相关性最高也与要加的噪音有关(是与上一时刻的影响大还是要加的噪音影响大,当前向时刻越往后,噪音影响的权重越来越大了,因为刚开始加一点噪声就有效果,之后要加噪声越来越多 )

2.反向过程(去噪)

        从一个随机噪声开始,逐步还原成不带噪音的原始图片——去噪过程,逆向过程其实时生成数据的过程。

 

 ZT其实就是我们要估计的每个时刻的噪声:

1)无法直接求解,需要训练一个模型计算

2)模型输入参数有2个,分别为当前时刻的分布和时刻t

七、参考

What are Diffusion Models? | Lil'Log

https://openreview.net/attachment?id=2LdBqxc1Yv&name=supplementary_material

由浅入深了解Diffusion Model - 知乎

https://arxiv.org/abs/2204.00227

Variational Diffusion Models | OpenReview

Diffusion model—扩散模型_原来如此-的博客-CSDN博客_扩散模型

【Diffusion模型】由浅入深了解Diffusion,不仅仅是震撼,感受它带给我们的无限可能!!(超详细的保姆级入门教程)_哔哩哔哩_bilibili

猜你喜欢

转载自blog.csdn.net/weixin_47772355/article/details/128475726
今日推荐