阿里系文生图（PAI+通义）

PAI-Diffusion模型来了！阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者：汪诚愚、段忠杰、朱祥茹、黄俊导读近年来，随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升，AI生成内容（AI Generated Content，AIGC）的应用呈现出爆发性增长趋势。其中，文图…https://zhuanlan.zhihu.com/p/590020134 EasyNLP中文文图生成模型带你秒变艺术家 - 知乎作者：汪诚愚、刘婷婷导读宣物莫大于言，存形莫善于画。 --【晋】陆机多模态数据（文本、图像、声音）是人类认识、理解和表达世间万物的重要载体。近年来，多模态数据的爆炸性增长促进了内容互联网的繁荣，也带来…https://zhuanlan.zhihu.com/p/547063102 ModelScope 魔搭社区https://modelscope.cn/studios/damo/ai_artist/summary ModelScope 魔搭社区https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summary PAI Diffusion (Food) - a Hugging Face Space by alibaba-paiDiscover amazing ML apps made by the communityhttps://huggingface.co/spaces/alibaba-pai/pai-diffusion-artist-xlarge-zh 当大火的文图生成模型遇见知识图谱，AI画像趋近于真实世界 - 知乎作者：朱祥茹、段忠杰、汪诚愚、黄俊导读用户生成内容（User Generated Content，UGC）是互联网上多模态内容的重要组成部分，UGC数据级的不断增长促进了各大多模态内容平台的繁荣。在海量多模态数据和深度学习大模…https://zhuanlan.zhihu.com/p/581870071对比较英文文生图，对于我们而言，其实要更关注中文文生图，目前已知的太乙，altdiffusion这两个效果很差，非开源版本，百度的文心一格，阿里系的通义，通义后续应该会开源的，其次阿里系内部还有PAI平台也在做文生图，基于easynlp，基本都是开源的。

1.PAI-Diffusion

Text encoder：使用easynlp中文clip，clilp这块阿里系内部还有通义的chineseclip，效果也很好，这里用的是easynlp自己训得跨模态对齐模型的text transformer作为text encoder.

Latent Difuusion：同sd

Auto Endoer：同sd

SR：ESRGAN

使用Wukong数据集中的2千万中文图文数据对对latent diffusion mode部分进行了20天的预训练，并在多个下游任务上微调，参数量在1B左右。

2.vqvae

2.ARTIST

ARTIST模型的构建基于Transformer模型，将文图生成任务分为两个阶段进行，第一阶段是通过VQGAN模型对图像进行矢量量化，即对于输入的图像，通过编码器将图像编码为定长的离散序列，解码阶段是以离散序列作为输入，输出重构图。第二阶段是将文本序列和编码后的图像序列作为输入，利用GPT模型学习以文本序列为条件的图像序列生成。为了增强模型先验，我们设计了一个Word Lattice Fusion Layer，将知识图谱中的的实体知识引入模型，辅助图像中对应实体的生成，从而使得生成的图像的实体信息更加精准。

3.通义

整体参数50B

4.评测

阿里系文生图（PAI+通义）

猜你喜欢