ERNIE-ViLG 2.0：百度文心一言文本生成图像模型

1 简介

本文根据百度2023年3月的《ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts》翻译总结的。

ERNIE-ViLG 2.0是一个大规模中文-图像扩散模型，百度论文中说该模型是中文该领域内第一个。主要有下面两个改进：

在过去几年，文本-图片扩散模型，例如LDM , GLIDE , DALL-E 2 , Imagen 在生成图片的文本相关性和图片逼真度方面取得了显著的进展。但存在如下两个问题：

ERNIE-ViLG 2.0的两个改进就是针对上面两个问题。

实验结果显示，ERNIE-ViLG 2.0效果好于DALL-E 2 和Stable Diffusion 。ERNIE-ViLG 2.0有24B参数（240亿），训练该模型用了320个 Tesla A100 GPUs，训练了18天，普通人玩不起啊。

ERNIE-ViLG 2.0的两个改进主要可以看下图1.虚线（预处理过程）部分，2.混合降噪专家模型。

1）前几年生成对抗模型较火；2）接着受transformer影响，文本-图片的序列到序列模型出现，如

ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 。3）最近，扩散模型流行，如LDM , DALL-E 2 , and Imagen。

2. 去噪过程：是扩散过程的逆过程。通过迭代t=T....1步，将高斯噪声转回。公式如下：

3. 目标函数：

指文章最开始的模型图中的“物体检测”，如我们识别出来的“猫”、“狗”。我们对训练样本的50%增加物体检测。我们修改目标函数（公式3），使其对物体检测对应的区域增加权重，进而提高模型对这些物体的生成的聚焦。修改后目标函数如下：

对于我们图片识别出来的“碗”，如果不在输入的文本里，我们会添加到文本里。这样会使文本表达更加准确的输入信息。

在相同块中的步骤是采用相同的网络参数；不同块采用不同的U-Net网络参数，但其中文本编码是共用的。公式如下：

ERNIE-ViLG 2.0的参数量为24B，包括1.3B的文本编码器，和10个2.2B的混合降噪专家（U-Net）。

训练数据包括1.70亿对图片-文本数据。对于英文的文本，我们采用百度翻译api直接翻译成中文。