El chino es un idioma con un amplio vocabulario, ricas transformaciones de glifos e interdependencias complejas entre caracteres. Los caracteres chinos a menudo tienen múltiples significados y pueden formarse en palabras compuestas, lo que permite establecer cambios de mapeo precisos y consistentes entre descripciones de texto y representaciones visuales. Dificultades.
Desventajas de los modelos de difusión generativa chinos: 1. Muchos modelos existentes se centran en generar imágenes basadas en descripciones de texto generales, ignorando la capacidad de generar imágenes en dominios o contextos específicos. 2. En el caso de los chinos, no se ha explorado por completo el potencial del uso de lora y controlnet para la transferencia y edición de imágenes refinadas.
2.modelos
Grande y xlarge se refieren al tamaño de la imagen generada, el primero es 512x512 y el segundo es 768x768, que es exactamente la misma que la estructura del modelo de sd1.5.
Los datos de entrenamiento utilizan los 100 millones de pares de texto-imagen de Wukong y OpenKG para entrenar previamente un modelo de clip chino.