速度提升,英伟达最新工作站让Stable Diffusion一分钟生成40张图,那么Stable Diffusion的原理是什么...

abe22829edc02839473099ffc7980f04.png

英伟达新发布一站式解决方案—— RTX Workstation,值得关注的几个数据:

- 支持最多4张RTX 6000 GPU

- 可在15小时内完成8.6亿token的GPT3-40B的微调

- Stable Diffusion XL每分钟生成40张图片,比4090快5倍

很多人都用过Stable Diffusion了,那么,SD的技术原理是什么呢?

1caf4c374d078624c962481ccdd02090.png

shadow

嗨,小朋友们!今天我要给大家讲一个有趣的科学故事,它的名字叫做"Stable Diffusion",听起来很高大上吧!其实,它是一种让电脑学会创作画作的技术。

9cae978867fd21d3a44cb7438b276e33.png

07031508024b90aac52c1540d50a2349.gif

首先,我们知道电脑是不会自己画画的,它需要我们告诉它该画什么。而"Stable Diffusion"就是一种让电脑根据我们的指令来创作画作的方法。

这个方法的原理有点复杂,但是我会用简单的话语和你们一起理解。首先,我们需要输入一些文字描述,比如"天堂"、"广阔的"、"海滩",然后电脑就会根据这些文字生成一张符合描述的图片。

f557041a340f050e1709f18e8559efd5.png

那么,电脑是如何做到这一点的呢?它使用了一个叫做CLIP的模型,这个模型可以将文字转换成电脑可以理解的数学表示,然后指导“Unet”模型把随机生成的噪声图像不断地去除噪声。

1cba42d68c1058cb7d339d630ee9de3b.png

使用step来表示去噪次数,通过不断地去除噪声,将纯噪声的图片逐渐转化为包含丰富语义信息的向量。最后,通过图像解码器,把语义向量生成一张具有语义信息的图片。

7b0a20810e6306d8167d204f143efa33.png

本文使用MixCopilot完成科普故事的生成。

1/ 输入原文:

jalammar.github.io/illustrated-stable-diffusion

2/ MixCopilot工作流完成输出

欢迎交流:

51b2363d1e8205cff3c2e2324f3d8225.jpeg

#知识矿工 演示v1.0

de17f647553e208999806010d8fc08cc.png

猜你喜欢

转载自blog.csdn.net/shadowcz007/article/details/132200356