DragGAN es de código abierto, ¡y la versión del modelo de difusión de DragDiffusion está aquí!

¡Tumbado, 60.000 palabras! ¡130 artículos en 30 direcciones! ¡El documento AIGC más completo de CVPR 2023! Léelo de una sentada.

Reimpreso de: Heart of the Machine | Editores: Du Wei, Chen Ping

Mueva el mouse para hacer que la imagen "viva" y se convierta en lo que desea.

En el mundo mágico de AIGC, podemos cambiar y sintetizar la imagen que queramos "arrastrando" sobre la imagen. Por ejemplo, para hacer que un león gire la cabeza y abra la boca:

dca326af6d338cb21f11cb33ee170776.gif

La investigación para lograr este efecto proviene del artículo "Drag Your GAN" dirigido por un autor chino, que se publicó el mes pasado y fue aceptado por la conferencia SIGGRAPH 2023.

Ha pasado más de un mes y el equipo de investigación publicó recientemente el código oficial. En solo tres días, el número de estrellas ha superado las 23k, lo que demuestra lo popular que es.

c8f31070ad9165db791bf48e1e5d6ba8.png

Dirección de GitHub: https://github.com/XingangPan/DragGAN

Coincidentemente, otra investigación similar—DragDiffusion llamó la atención de la gente hoy. El DragGAN anterior realizó la edición de imágenes interactiva basada en puntos y logró efectos de edición de precisión a nivel de píxeles. Pero también hay deficiencias. DragGAN se basa en la red de confrontación de generación (GAN), y su versatilidad estará limitada por la capacidad del modelo GAN pre-entrenado.

En el nuevo estudio, varios investigadores de la Universidad Nacional de Singapur y Bytedance ampliaron este marco de edición al modelo de difusión y propusieron DragDiffusion. Mediante el uso de un modelo de difusión preentrenado a gran escala, mejoraron en gran medida la aplicabilidad de la edición interactiva basada en puntos en escenarios del mundo real.

Si bien la mayoría de los métodos actuales de edición de imágenes basados ​​en la difusión son adecuados para incrustaciones de texto, DragDiffusion optimiza la representación latente de difusión para un control espacial preciso.

9443388d67fd9a3054df3698a8d0f2dd.png

  • Dirección en papel: https://arxiv.org/abs/2306.14435

  • Dirección del proyecto: https://yujun-shi.github.io/projects/dragdiffusion.html

Los investigadores dijeron que el modelo de difusión genera imágenes de manera iterativa, y la optimización de "un paso" de la representación latente de difusión es suficiente para generar resultados coherentes, lo que permite que DragDiffusion complete de manera eficiente la edición de alta calidad.

Realizan extensos experimentos en varios escenarios desafiantes (por ejemplo, múltiples objetos, diferentes categorías de objetos), verificando la plasticidad y la generalidad de DragDiffusion. El código relevante también se lanzará pronto,

Veamos cómo funciona DragDiffusion.

En primer lugar, queremos levantar un poco más la cabeza del gatito de la imagen de abajo, el usuario solo necesita arrastrar el punto rojo al punto azul:

3ad553f583e0b80e123ebd2b3c741399.gif

A continuación, queremos hacer la montaña un poco más alta, no hay problema, solo arrastre el punto clave rojo:

e73f6138004b7c680fff69ad4058c71a.gif

También quiero girar la cabeza de la escultura, solo arrástrala y suéltala:

a7d96c2432eed87e56fcd1588928de6a.gif

Deje que las flores en la orilla florezcan en un rango más amplio:

6d295195c04a1cdffbc89d909e38f412.gif

introducción al método

DRAGDIFFUSION propuesto en este documento tiene como objetivo optimizar variables latentes de difusión específicas para la edición de imágenes interactiva basada en puntos.

Para lograr este objetivo, el estudio primero ajusta LoRA en función del modelo de difusión para reconstruir las imágenes de entrada del usuario. Si lo hace, puede garantizar que el estilo de las imágenes de entrada y salida se mantenga constante.

A continuación, aplicamos la inversión DDIM (un método que explora la transformación inversa y las operaciones de espacio latente de los modelos de difusión) a la imagen de entrada para obtener variables latentes de difusión específicas del paso.

Durante el proceso de edición, iterativamente aplicamos supervisión de acciones y seguimiento de puntos para optimizar las variables latentes de difusión t-ésima obtenidas previamente para "arrastrar" el contenido del punto procesado a la ubicación de destino. El proceso de edición también aplica un término de regularización para garantizar que las regiones desenmascaradas de la imagen permanezcan sin cambios.

Finalmente, las variables latentes optimizadas del paso t-ésimo son eliminadas por DDIM para obtener los resultados editados. El diagrama general es el siguiente:

a0a2abfeed2e7771c72bdbc939eda0a6.png

Resultados experimentales

Dada una imagen de entrada, DRAGDIFFUSION "arrastra" el contenido de los puntos clave (rojo) a los puntos de destino correspondientes (azul). Por ejemplo, en la imagen (1), la cabeza del perro está girada, en la imagen (7), la boca del tigre está cerrada, y así sucesivamente.

f62e2dad861b8e526b215c20262502b7.png

A continuación hay algunas demostraciones de muestra más. Como se muestra en la Figura (4), el pico de la montaña será más alto, la Figura (7) aumentará el tamaño del corral, y así sucesivamente.

389bde0f4738e23b98cabedca4b169c9.png

Preste atención a la cuenta oficial [Aprendizaje automático y creación de generación de IA], le esperan cosas más emocionantes para leer

Explicación simple de difusión estable: Interpretación del modelo de difusión potencial detrás de la tecnología de pintura AI

¡Explicación detallada de ControlNet, un algoritmo de generación de pintura AIGC controlable! 

GAN clásico tiene que leer: StyleGAN

02909832686386962174c10eeca5ed8f.png ¡Haz clic en mí para ver los álbumes de la serie de GAN~!

Una taza de té con leche, ¡conviértete en la frontera de la visión AIGC+CV!

¡El último y más completo resumen de 100! Generar modelos de difusión Modelos de difusión

ECCV2022 | Resumen de algunos trabajos sobre la generación de redes de confrontación GAN

CVPR 2022 | Más de 25 direcciones, los últimos artículos de 50 GAN

 ICCV 2021 | Resumen de los artículos de GAN sobre 35 temas

¡Más de 110 artículos! CVPR 2021 peinado de papel GAN ​​más completo

¡Más de 100 artículos! El peinado de papel GAN ​​más completo de CVPR 2020

Desmantelando la nueva GAN: representación desacoplada MixNMatch

StarGAN Versión 2: Generación de imágenes de diversidad multidominio

Descarga adjunta | Versión en chino de "Aprendizaje automático explicable"

Descarga adjunta | "Algoritmos de aprendizaje profundo de TensorFlow 2.0 en la práctica"

Descarga adjunta | "Métodos Matemáticos en Visión por Computador" compartir

"Una revisión de los métodos de detección de defectos superficiales basados ​​en el aprendizaje profundo"

Una encuesta de clasificación de imágenes de disparo cero: una década de progreso

"Una encuesta de aprendizaje de pocos disparos basada en redes neuronales profundas"

El "Libro de los ritos · Xue Ji" tiene un dicho: "Aprender solo sin amigos es solitario e ignorante".

¡Haga clic en una taza de té con leche y conviértase en el vacilante de la frontera de la visión AIGC+CV! , ¡únete  al planeta de la creación generada por IA y  el conocimiento de la visión por computadora!

Supongo que te gusta

Origin blog.csdn.net/lgzlgz3102/article/details/131799236
Recomendado
Clasificación