再炸AI绘图圈：2秒文成图，最快的移动端Stable Diffusion模型；Stability AI推出Uncrop Clipdrop更新一键扩图

1. 最快的移动端 Stable Diffusion 模型——SnapFusion

起初，AI 作图需要几天，再缩减到几十分钟，再到几分钟，出图时间在不断加速，问题是，究竟快到什么程度，才会在专业的美术从业者甚至普通大众之间普及开来？这个无法给出具体答案，但是可以确定的是AI作图在技术和速度上的突破，很可能已经接近甚至超过阈值。

最近，Snap 研究院推出最新高性能 Stable Diffusion 模型——SnapFusion，已经算是 “一秒出图” 的 Stable Diffusion 模型了。通过对网络结构、训练流程、损失函数全方位进行优化，在 iPhone 14 Pro 上实现 2 秒出图（512x512)，且比 SD-v1.5 取得更好的 CLIP score。

在这里插入图片描述

论文地址：https://arxiv.org/pdf/2306.00980.pdf
项目网站: https://snap-research.github.io/SnapFusion

Stable Diffusion （SD）是当前最热门的文本到图像（text to image）生成扩散模型。虽然在图像生成方面很强大，但所需的计算资源极大且推理碎度很慢。以 SD-v1.5 为例，即使用半精度存储，其模型大小也有 1.7GB，近 10 亿参数，端上推理时间往往要接近 2min。

对于推理速度慢的问题，目前主要有2种解决方向：（1）减少推理步数，以及（2）工程技巧优化。
在这里插入图片描述

在这里插入图片描述

Stable Diffusion 模型分为三部分：VAE encoder/decoder, text encoder, UNet。

此次 SnapFusion 主要是对 UNet 进行优化，具体分为两部分：

（1）UNet 结构上的优化：通过分析原有 UNet 的速度瓶颈，本文提出一套 UNet 结构自动评估、进化流程，得到了更为高效的 UNet 结构（称为 Efficient UNet）。

（2）推理步数上的优化：众所周知，扩散模型在推理时是一个迭代的去噪过程，迭代的步数越多，生成图片的质量越高，但时间代价也随着迭代步数线性增加。为了减少步数并维持图片质量，Snap团队提出一种 CFG-aware 蒸馏损失函数，在训练过程中显式考虑 CFG （Classifier-Free Guidance）的作用，这一损失函数被证明是提升 CLIP score 的关键！

通过下表1，我们可以看到 SD-v1.5 与 SnapFusion 的差距：SnapFusion 模型的速度提升来源于 UNet 和 VAE decoder 两个部分。UNet 部分的改进最大：一是单次 latency 下降（1700ms -> 230ms，7.4x 加速），这是通过提出的 Efficient UNet 结构得到的；二是 Inference steps 降低（50 -> 8，6.25x 加速），这是通过提出的 CFG-aware Distillation 得到的。

在这里插入图片描述