PAI-Diffusion: construcción y servicio de una familia de modelos de difusión chinos abiertos para síntesis t2i

La familia de modelos chinos PAI-Diffusion de múltiples escenarios se ha actualizado enormemente, con 12 modelos y 2 herramientas, todas de código abierto: Zhihu Autor: Duan Zhongjie, Liu Bingyan, Wang Chengyu, Zou Xinyi, Huang Jun Descripción general En los últimos años, con Con el auge del contenido generado por IA (AI Generated Content, AIGC), ha surgido en este campo el modelo de Difusión Estable. Para promover el desarrollo de este campo, el equipo PAI de Alibaba Cloud Machine Learning... icono-default.png?t=N7T8https://zhuanlan.zhihu.com/p/655955464 1.introducción

El chino es un idioma con un amplio vocabulario, ricas transformaciones de glifos e interdependencias complejas entre caracteres. Los caracteres chinos a menudo tienen múltiples significados y pueden formarse en palabras compuestas, lo que permite establecer cambios de mapeo precisos y consistentes entre descripciones de texto y representaciones visuales. Dificultades.

Desventajas de los modelos de difusión generativa chinos: 1. Muchos modelos existentes se centran en generar imágenes basadas en descripciones de texto generales, ignorando la capacidad de generar imágenes en dominios o contextos específicos. 2. En el caso de los chinos, no se ha explorado por completo el potencial del uso de lora y controlnet para la transferencia y edición de imágenes refinadas.

2.modelos

Grande y xlarge se refieren al tamaño de la imagen generada, el primero es 512x512 y el segundo es 768x768, que es exactamente la misma que la estructura del modelo de sd1.5.

Los datos de entrenamiento utilizan los 100 millones de pares de texto-imagen de Wukong y OpenKG para entrenar previamente un modelo de clip chino.

Supongo que te gusta

Origin blog.csdn.net/u012193416/article/details/133082990
Recomendado
Clasificación