深度学习项目分支一：文本转图像模型01

一、背景解释

文字生成图片是一个基于深度学习的机器学习任务，其目的是从文本中学习如何将文本转换为图像，以构建具有自然语言描述性的图像。这类技术的基础是在语言和视觉概念之间建立联系，以便能够理解文本描述，并将其转换为图像。

三种文本转图像模型脱颖而出：Stable Diffusion、Midjourney 和 DALL·E 2

如果您正在寻找开源图像生成器，Stable Diffusion 是目前三者中唯一的选择。你可以在你的计算机上本地运行 Stable Diffusion，这意味着你有更多的控制权、更好的定制，甚至可以使用他们的深度学习文本转图像模型构建你自己的 AI 工具。

二、资料来源

1. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention，论文地址：https://arxiv.org/abs/1502.03044

2. DenseCap: Fully Convolutional Localization Networks for Dense Captioning，论文地址：https://arxiv.org/abs/1511.07571

3. Neural Baby Talk，论文地址：https://arxiv.org/abs/1508.06624

4. Generative Adversarial Text-to-Image Synthesis，论文地址：https://arxiv.org/abs/1605.05396

5. Image Generation from Text，论文地址：https://arxiv.org/abs/1511.02793

6. Text to Image Synthesis Using Thought Vectors，论文地址：https://arxiv.org/abs/1605.05396

7. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks，论文地址：https://arxiv.org/abs/1612.03242

8. Show, Control and Tell: A Definitive Image Captioning Framework，论文地址：https://arxiv.org/abs/1703.09137

9. Image Captioning With Semantic Attention，论文地址：https://arxiv.org/abs/1709.06309

10. Generative Adversarial Text-to-Image Synthesis，论文地址：https://arxiv.org/abs/1605.05396

三、代码来源

现在，来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》，并与 Eleuther AI、LAION 等团队合作，共同开发了一种可在消费级 GPU 上运行的文本转图像模型 Stable Diffusion，目前项目代码已开源。

代码地址：https://github.com/CompVis/stable-diffusion

Stable Diffusion 模型是首个在 4000 个 A100 Ezra-1 AI 超大集群上进行训练的文本转图像模型。在测试方面，研究团队已经和 10000 多名 beta 测试用户一起大规模测试该模型，每天可创建 170 万张图像。该研究后续还将发布该模型输出的开放合成数据集。

Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行，并在几秒钟内生成 512x512 像素的图像，无需预处理和后处理，这是速度和质量上的突破。

论文地址：https://arxiv.org/pdf/2112.10752.pdf

该研究试图利用扩散模型实现文字转图像。尽管扩散模型允许通过对相应的损失项进行欠采样（undersampling）来忽略感知上不相关的细节，但它们仍然需要在像素空间中进行昂贵的函数评估，这会导致对计算时间和能源资源的巨大需求。该研究通过将压缩与生成学习阶段显式分离来规避这个问题，最终降低了训练扩散模型对高分辨率图像合成的计算需求。