Todos los métodos anteriores a 2021 se basan en GAN. Generalmente, el texto y el ruido se colocan en una red de generación y luego, después de generar una imagen, el discriminador determina si coincide con el texto y luego determina si es real y falso al mismo tiempo. Tiene dos desventajas: 1. Solo puede modelar una sola escena, por ejemplo, solo puede generar escenas relacionadas con la cara, por lo que el modelo gan solo se puede entrenar en la escena de la cara; 2. No puede construir múltiples objetos que existen en la escena. escena molde. El lado derecho es un método basado en GPT. Si dalle, para un texto determinado, comienza desde la esquina superior izquierda de la imagen, secuencialmente desde la esquina superior izquierda hasta la inferior derecha, y genera la imagen bloque por bloque, pero para algunos complejos y diversas imágenes, la anterior Si el token es incorrecto, la generación posterior tendrá problemas y será muy lenta.
1. Introducir la difusión de ruido en el campo de los diagramas vicencianos 2. Proponer el algoritmo de difusión VQ 3. 15 veces más rápido que la autorregresión.
El modelo de difusión tiene dos pasos: paso hacia adelante, mirando de derecha a izquierda, agregando ruido, y proceso de Markov. Cuando una imagen agrega ruido constantemente, eventualmente se convertirá en una imagen de ruido puro. El paso inverso, eliminación de ruido, utiliza la red para procesar con el ruido, se elimina el ruido de la imagen y se obtiene la imagen final.
La difusión de VQ no se realiza en un espacio de píxeles puro, sino en un espacio de píxeles cuantificado. La resolución de la imagen en el espacio de píxeles es muy alta. Si utiliza un transformador para modelar cada píxel, la longitud de la secuencia será muy larga, lo que no favorece modelado. . Por lo tanto, para comprimir la resolución del espacio de la imagen, se utiliza VQVAE para convertir la imagen en un código discreto con una resolución más baja. Por ejemplo, la resolución de la imagen de arriba es 256x256, que se convierte en 32x32 después de la compresión.
En el segundo paso, se introducen las estrategias de enmascarar y reemplazar. Toda la adición de ruido se realiza en un espacio discreto. Hay dos formas de agregar ruido. La primera es eliminar aleatoriamente un determinado código y enmascararlo. La segunda es reemplazar , reemplace aleatoriamente el código con otros códigos, de modo que al agregar ruido, obtenga un vector compuesto por un código aleatorio y un código de máscara, y la imagen original se pueda restaurar a través de una cadena de códigos con ruido e información de texto.