Reimpreso de: Heart of the Machine | Editores: Du Wei, Chen Ping
Mueva el mouse para hacer que la imagen "viva" y se convierta en lo que desea.
En el mundo mágico de AIGC, podemos cambiar y sintetizar la imagen que queramos "arrastrando" sobre la imagen. Por ejemplo, para hacer que un león gire la cabeza y abra la boca:
La investigación para lograr este efecto proviene del artículo "Drag Your GAN" dirigido por un autor chino, que se publicó el mes pasado y fue aceptado por la conferencia SIGGRAPH 2023.
Ha pasado más de un mes y el equipo de investigación publicó recientemente el código oficial. En solo tres días, el número de estrellas ha superado las 23k, lo que demuestra lo popular que es.
Dirección de GitHub: https://github.com/XingangPan/DragGAN
Coincidentemente, otra investigación similar—DragDiffusion llamó la atención de la gente hoy. El DragGAN anterior realizó la edición de imágenes interactiva basada en puntos y logró efectos de edición de precisión a nivel de píxeles. Pero también hay deficiencias. DragGAN se basa en la red de confrontación de generación (GAN), y su versatilidad estará limitada por la capacidad del modelo GAN pre-entrenado.
En el nuevo estudio, varios investigadores de la Universidad Nacional de Singapur y Bytedance ampliaron este marco de edición al modelo de difusión y propusieron DragDiffusion. Mediante el uso de un modelo de difusión preentrenado a gran escala, mejoraron en gran medida la aplicabilidad de la edición interactiva basada en puntos en escenarios del mundo real.
Si bien la mayoría de los métodos actuales de edición de imágenes basados en la difusión son adecuados para incrustaciones de texto, DragDiffusion optimiza la representación latente de difusión para un control espacial preciso.
Dirección en papel: https://arxiv.org/abs/2306.14435
Dirección del proyecto: https://yujun-shi.github.io/projects/dragdiffusion.html
Los investigadores dijeron que el modelo de difusión genera imágenes de manera iterativa, y la optimización de "un paso" de la representación latente de difusión es suficiente para generar resultados coherentes, lo que permite que DragDiffusion complete de manera eficiente la edición de alta calidad.
Realizan extensos experimentos en varios escenarios desafiantes (por ejemplo, múltiples objetos, diferentes categorías de objetos), verificando la plasticidad y la generalidad de DragDiffusion. El código relevante también se lanzará pronto,
Veamos cómo funciona DragDiffusion.
En primer lugar, queremos levantar un poco más la cabeza del gatito de la imagen de abajo, el usuario solo necesita arrastrar el punto rojo al punto azul:
A continuación, queremos hacer la montaña un poco más alta, no hay problema, solo arrastre el punto clave rojo:
También quiero girar la cabeza de la escultura, solo arrástrala y suéltala:
Deje que las flores en la orilla florezcan en un rango más amplio:
introducción al método
DRAGDIFFUSION propuesto en este documento tiene como objetivo optimizar variables latentes de difusión específicas para la edición de imágenes interactiva basada en puntos.
Para lograr este objetivo, el estudio primero ajusta LoRA en función del modelo de difusión para reconstruir las imágenes de entrada del usuario. Si lo hace, puede garantizar que el estilo de las imágenes de entrada y salida se mantenga constante.
A continuación, aplicamos la inversión DDIM (un método que explora la transformación inversa y las operaciones de espacio latente de los modelos de difusión) a la imagen de entrada para obtener variables latentes de difusión específicas del paso.
Durante el proceso de edición, iterativamente aplicamos supervisión de acciones y seguimiento de puntos para optimizar las variables latentes de difusión t-ésima obtenidas previamente para "arrastrar" el contenido del punto procesado a la ubicación de destino. El proceso de edición también aplica un término de regularización para garantizar que las regiones desenmascaradas de la imagen permanezcan sin cambios.
Finalmente, las variables latentes optimizadas del paso t-ésimo son eliminadas por DDIM para obtener los resultados editados. El diagrama general es el siguiente:
Resultados experimentales
Dada una imagen de entrada, DRAGDIFFUSION "arrastra" el contenido de los puntos clave (rojo) a los puntos de destino correspondientes (azul). Por ejemplo, en la imagen (1), la cabeza del perro está girada, en la imagen (7), la boca del tigre está cerrada, y así sucesivamente.
A continuación hay algunas demostraciones de muestra más. Como se muestra en la Figura (4), el pico de la montaña será más alto, la Figura (7) aumentará el tamaño del corral, y así sucesivamente.
Preste atención a la cuenta oficial [Aprendizaje automático y creación de generación de IA], le esperan cosas más emocionantes para leer
¡Explicación detallada de ControlNet, un algoritmo de generación de pintura AIGC controlable!
GAN clásico tiene que leer: StyleGAN
¡Haz clic en mí para ver los álbumes de la serie de GAN~!
Una taza de té con leche, ¡conviértete en la frontera de la visión AIGC+CV!
¡El último y más completo resumen de 100! Generar modelos de difusión Modelos de difusión
ECCV2022 | Resumen de algunos trabajos sobre la generación de redes de confrontación GAN
CVPR 2022 | Más de 25 direcciones, los últimos artículos de 50 GAN
ICCV 2021 | Resumen de los artículos de GAN sobre 35 temas
¡Más de 110 artículos! CVPR 2021 peinado de papel GAN más completo
¡Más de 100 artículos! El peinado de papel GAN más completo de CVPR 2020
Desmantelando la nueva GAN: representación desacoplada MixNMatch
StarGAN Versión 2: Generación de imágenes de diversidad multidominio
Descarga adjunta | Versión en chino de "Aprendizaje automático explicable"
Descarga adjunta | "Algoritmos de aprendizaje profundo de TensorFlow 2.0 en la práctica"
Descarga adjunta | "Métodos Matemáticos en Visión por Computador" compartir
Una encuesta de clasificación de imágenes de disparo cero: una década de progreso
"Una encuesta de aprendizaje de pocos disparos basada en redes neuronales profundas"
El "Libro de los ritos · Xue Ji" tiene un dicho: "Aprender solo sin amigos es solitario e ignorante".
¡Haga clic en una taza de té con leche y conviértase en el vacilante de la frontera de la visión AIGC+CV! , ¡únete al planeta de la creación generada por IA y el conocimiento de la visión por computadora!