Tune-A-Video: Ajuste único de modelos de difusión de imágenes para la generación de texto a vídeo

Tune-A-Video: Ajuste único de modelos de difusión de imágenes para la generación de texto a vídeo

Fig 1. Tune-A-Video: un nuevo método para generar T2V utilizando pares texto-vídeo y un modelo T2I previamente entrenado.

Proyecto: https://tuneavideo.github.io
Enlace original: Tnue-A-Video: Ajuste único del modelo de difusión de imágenes para la generación de texto a video (por Frontiers of Small Sample Vision and Intelligence)

Tabla de contenido

01 ¿Insuficiencia del trabajo existente?

Para replicar el éxito de la generación de texto a imagen (T2I), un trabajo reciente utiliza conjuntos de datos de video a gran escala para entrenar generadores de texto a video (T2V). Aunque sus resultados son prometedores, este paradigma es computacionalmente costoso.

Fig 2. Observaciones sobre modelos T2I previamente entrenados: 1) Pueden generar imágenes estáticas que representan con precisión términos verbales.  2) Extender la autoatención espacial a la atención espacio-temporal produce contenido consistente en todos los fotogramas.

02 ¿Qué problema resuelve el artículo?

Proponemos una nueva configuración de generación T2V: sintonización de video de una sola toma, donde solo hay un par texto-video. Nuestro modelo se basa en el modelo de difusión T2I de última generación, que está previamente entrenado con una gran cantidad de datos de imágenes.

03 ¿Cuál es la solución clave?

Presentamos Tune-A-Video, que implica un mecanismo de atención espacio-temporal personalizado y una estrategia de ajuste eficiente de una sola vez. Durante la inferencia, empleamos la inversión DDIM para proporcionar una guía estructural para el muestreo.

04 ¿Cuál es el principal aporte?

  • Presentamos una nueva configuración de One-Shot Video Tuning para la generación T2V, que elimina la carga del entrenamiento con conjuntos de datos de video a gran escala.
  • Proponemos Tune-A-Video, el primer marco para generar T2V utilizando un modelo T2I previamente entrenado.
  • Proponemos un ajuste de atención eficiente y una inversión de estructura, que mejora significativamente la consistencia temporal.

05 ¿Qué tipo de trabajos relacionados existen?

  • Modelos de difusión de texto a imagen.
  • Modelos generativos de texto a vídeo.
  • Edición de vídeo basada en texto.
  • Generación a partir de un solo vídeo.

06 ¿Cómo se implementa el método?

Fig 3. Una descripción general de alto nivel de Tune-A-Video.  Dado un video subtitulado, ajustamos un modelo T2I previamente entrenado (por ejemplo, difusión estable) para el modelado T2V.  Durante la inferencia, generamos nuevos videos para representar ediciones en señales de texto mientras preservamos la consistencia temporal de los videos de entrada.

Inflación de la red

Mecanismo de autoatención espacial:


Entre ellos, zvi z_{v_i}zvyoes el marco vi v_ivyoLa representación del código latente correspondiente. W∗W^*W. es una matriz que se puede aprender que proyecta la entrada a la consulta, la clave y el valor, y d es la dimensión de salida de las características clave y de consulta.

Proponemos utilizar una versión dispersa del mecanismo de atención causal, donde en el marco zvi z_{v_i}zvyo和帧zv 1 z_{v_1}zv1zvi − 1 z_{v_{i-1}}zvyo 1Calcule la matriz de atención intermedia, manteniendo la complejidad computacional baja en O ​​( 2 m ( N ) 2 ) O(2m(N)^2)O ( 2 m ( norte )2 ).
Implementamos Atención (Q,k,V) de la siguiente manera:


donde [ ⋅ ] [\cdot][ ] indica la operación de conexión y la descripción visual se muestra en la Figura 5.

Fig 5. ST-Attn: Las características latentes para el cuadro vi, el cuadro anterior vi−1 y v1 se proyectan en queryQ, clave K y valor V.  El resultado es una suma ponderada de valores, ponderada por la similitud entre la consulta y las características clave.  Destacamos el parámetro actualizado WQ.

Ajuste fino e inferencia

1)Ajuste del modelo

Ajustamos todas las capas temporales de autoatención (T-Attn) a medida que se agregan recientemente. Además, proponemos refinar la alineación texto-video (Cross-Attn) actualizando la proyección de consulta en atención cruzada. En la práctica, el ajuste fino del bloque de atención es computacionalmente eficiente en comparación con el ajuste completo [39] y al mismo tiempo se preservan las propiedades originales del modelo de difusión T2I previamente entrenado. Utilizamos el mismo objetivo de entrenamiento en ldm estándar [37]. La Figura 4 ilustra el proceso de ajuste con parámetros entrenables resaltados.

Fig 4. La canalización de Tune-A-Video: dado un par de texto y video (p. ej., “una persona está esquiando”) como entrada, nuestro método utiliza un modelo de difusión T2I previamente entrenado para generar T2V.  Durante el ajuste fino, actualizamos la matriz de proyección en el bloque de atención utilizando la pérdida de entrenamiento de difusión estándar.  Durante la inferencia, tomamos muestras de un nuevo video a partir del ruido latente invertido del video de entrada, guiados por señales editadas (por ejemplo, “Spider Man surfeando en la playa, estilo dibujos animados”).

2) Guía de estructura basada en la inversión DDIM

El ruido subyacente del vídeo fuente V se obtiene mediante inversión DDIM sin condiciones de texto. Este ruido sirve como punto de partida para el muestreo DDIM, dado por la sugerencia editada T ∗ \mathcal{T}^*t Orientación. Vídeo de salidaV ∗ \mathcal{V}^*V viene dado por:

07 ¿Cuáles son los resultados experimentales y los efectos comparativos?

Aplicaciones

1) Edición de objetos.

Una de las principales aplicaciones de nuestro método es modificar objetos editando señales de texto. Esto permite reemplazar, agregar o eliminar objetos fácilmente. La Figura 6 muestra algunos ejemplos.

Fig 6. Resultados experimentales

2)Cambio de fondo.

Nuestro método también permite al usuario cambiar el fondo del video (es decir, dónde se encuentra el objeto) preservando al mismo tiempo la consistencia del movimiento del objeto. Por ejemplo, podríamos modificar el fondo del esquiador en la Figura 6 para que esté "en la playa" o "atardecer" agregando una nueva descripción de ubicación/hora y cambiando la vista de la carretera lateral del campo en la Figura 7 a una vista del océano.

Fig 7. Comparación cualitativa entre métodos de evaluación

3) Transferencia de estilo.

Debido al conocimiento de dominio abierto del modelo T2I previamente entrenado, nuestro método traduce videos a varios estilos que son difíciles de aprender solo a partir de datos de video (12). Por ejemplo, convertimos vídeos del mundo real al estilo de un cómic (Fig. 6, o estilo Van Gogh (Fig. 10)) agregando un descriptor de estilo global a las señales.

Tabla 1. Evaluación cuantitativa.

4) Generación personalizada y controlable

Nuestro método se puede integrar fácilmente con modelos T2I personalizados (por ejemplo, DreamBooth [39], que toma de 3 a 5 imágenes como entrada y devuelve un modelo T2I personalizado), refinándolos directamente. Por ejemplo, podemos utilizar DreamBooth personalizado con "Modern Disney Style" o "Mr. Potato Head" para crear vídeos de un estilo o temática concreta (Fig. 11). Nuestro método también se puede integrar con modelos T2I condicionales como T2I Adapter [29] y ControlNet [52] para aplicar diferentes controles en los videos generados sin costo de capacitación adicional. Por ejemplo, podemos usar una secuencia de poses humanas como controles para editar aún más el movimiento (por ejemplo, bailar en la Figura 1).

resultados cualitativos

Ofrecemos una comparación visual de nuestro método con varias líneas de base en la Figura 7. Por el contrario, nuestro método genera videos temporalmente coherentes que preservan la información estructural en los videos de entrada y son consistentes con palabras y detalles editados. Se pueden encontrar comparaciones cualitativas adicionales en la Figura 12.

Resultados cuantitativos

Cuantificamos nuestro método con respecto a líneas de base a través de métricas automáticas y estudios de usuarios, y reportamos la consistencia del marco y la confianza textual en la Tabla 1.

08 ¿Qué nos dicen los estudios de ablación?

Realizamos un estudio de ablación en Tune-A-Video para evaluar la importancia del mecanismo de atención espacio-temporal (ST-Attn), la inversión DDIM y el ajuste fino. Cada diseño se toma individualmente para analizar su impacto. El resultado se muestra en la Figura 8.

Fig 8. Estudio de ablación.
Estos resultados demuestran que todos nuestros diseños clave contribuyen a los resultados exitosos de nuestro método.

09 ¿Cómo se puede optimizar este trabajo?

La Figura 9 muestra la falla de nuestro método cuando el video de entrada contiene múltiples objetos con oclusiones. Esto puede deberse a las limitaciones inherentes de los modelos T2I en el manejo de múltiples objetos e interacciones entre objetos. Una posible solución es utilizar información condicional adicional, como la profundidad, para permitir que el modelo distinga entre diferentes objetos y sus interacciones. La investigación en esta área se deja para futuras investigaciones.

Fig 9. limitaciones.

10 Conclusión

En este artículo, presentamos una nueva tarea generada por T2V: sintonización de video de una sola vez. Esta tarea implica entrenar un generador T2V utilizando solo un par de texto y video y un modelo T2I previamente entrenado. Presentamos Tune-A-Video, un marco simple pero efectivo para la generación y edición de videos basados ​​en texto. Para generar videos continuos, proponemos una estrategia de ajuste eficiente y una inversión de estructura que puede generar videos temporalmente coherentes. Amplios experimentos demuestran que nuestro método logra resultados notables en una amplia gama de aplicaciones.

Enlace original: Tnue-A-Video: Ajuste único del modelo de difusión de imágenes para la generación de texto a video (por Frontiers of Small Sample Vision and Intelligence)

Supongo que te gusta

Origin blog.csdn.net/NGUever15/article/details/131419763
Recomendado
Clasificación