modelo de difusión cuantificada vectorial para síntesis de texto a imagen

Sesión para compartir artículos CVPR 2022: síntesis de texto a imagen basada en VQ-Diffusion_bilibili_bilibili Sesión para compartir artículos CVPR 2022: síntesis de texto a imagen basada en VQ-Diffusion, vistas de video 1438, comentarios 2, me gusta La cantidad de monedas lanzadas es 12, la cantidad de Los coleccionistas son 40 y el número de retweets es 13. El autor del video es Microsoft Technology. Acerca del autor. Hola a todos, soy el maestro Tian. Tian Zijian imparte clases de vez en cuando y sortea premios con regularidad. Recuerde prestar atención, videos relacionados: Sesión de intercambio de documentos CVPR 2023 | Sesión 1: Generación visual - Zhang Bo, revisión completa de la conferencia Microsoft 365 Copilot de Microsoft 2023 Versión de subtítulos en chino, Sesión de intercambio de documentos CVPR 2023 | Sesión 1: Generación visual - Dong Jing, CVPR 2023 Sesión de intercambio de artículos | Intercambio de carteles, [Intercambio de artículos AAAI 2023] Aprendizaje de políticas adaptativas del aprendizaje de refuerzo fuera de línea al aprendizaje en línea, intercambio de artículos ICSE 2021: reducción del espacio de configuración orientada a recursos para modelos de aprendizaje profundo, [Douban recortó 9,5 puntos] Libro de texto de redacción de artículos SCI, Hecho a medida para investigadores de países de habla no inglesa, ¡se especializa en guiar la redacción de artículos académicos en inglés! -SCI/Academic Papers/Journals, [AAAI 2023 Paper Sharing] Combinación de aprendizaje en línea basado en causa y efecto, ¿estás listo para enfrentar el desafío de la "transformación digital"? , simplemente instale el complemento CodeGeeX para disfrutar de la codificación AI | Recomendación del complemento VSCode | Tutorial de uso de CodeGeeX https://www.bilibili.com/video/BV13Y4y1r7CH/?spm_id_from=333.1007.top_right_bar_window_dynamic.content.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22

Todos los métodos anteriores a 2021 se basan en GAN. Generalmente, el texto y el ruido se colocan en una red de generación y luego, después de generar una imagen, el discriminador determina si coincide con el texto y luego determina si es real y falso al mismo tiempo. Tiene dos desventajas: 1. Solo puede modelar una sola escena, por ejemplo, solo puede generar escenas relacionadas con la cara, por lo que el modelo gan solo se puede entrenar en la escena de la cara; 2. No puede construir múltiples objetos que existen en la escena. escena molde. El lado derecho es un método basado en GPT. Si dalle, para un texto determinado, comienza desde la esquina superior izquierda de la imagen, secuencialmente desde la esquina superior izquierda hasta la inferior derecha, y genera la imagen bloque por bloque, pero para algunos complejos y diversas imágenes, la anterior Si el token es incorrecto, la generación posterior tendrá problemas y será muy lenta.

1. Introducir la difusión de ruido en el campo de los diagramas vicencianos 2. Proponer el algoritmo de difusión VQ 3. 15 veces más rápido que la autorregresión.

El modelo de difusión tiene dos pasos: paso hacia adelante, mirando de derecha a izquierda, agregando ruido, y proceso de Markov. Cuando una imagen agrega ruido constantemente, eventualmente se convertirá en una imagen de ruido puro. El paso inverso, eliminación de ruido, utiliza la red para procesar con el ruido, se elimina el ruido de la imagen y se obtiene la imagen final.

La difusión de VQ no se realiza en un espacio de píxeles puro, sino en un espacio de píxeles cuantificado. La resolución de la imagen en el espacio de píxeles es muy alta. Si utiliza un transformador para modelar cada píxel, la longitud de la secuencia será muy larga, lo que no favorece modelado. . Por lo tanto, para comprimir la resolución del espacio de la imagen, se utiliza VQVAE para convertir la imagen en un código discreto con una resolución más baja. Por ejemplo, la resolución de la imagen de arriba es 256x256, que se convierte en 32x32 después de la compresión.

En el segundo paso, se introducen las estrategias de enmascarar y reemplazar. Toda la adición de ruido se realiza en un espacio discreto. Hay dos formas de agregar ruido. La primera es eliminar aleatoriamente un determinado código y enmascararlo. La segunda es reemplazar , reemplace aleatoriamente el código con otros códigos, de modo que al agregar ruido, obtenga un vector compuesto por un código aleatorio y un código de máscara, y la imagen original se pueda restaurar a través de una cadena de códigos con ruido e información de texto.

Supongo que te gusta

Origin blog.csdn.net/u012193416/article/details/132523097
Recomendado
Clasificación