Tune-A-Video: Ajuste único de modelos de difusión de imágenes para la generación de texto a vídeo
Proyecto: https://tuneavideo.github.io
Enlace original: Tnue-A-Video: Ajuste único del modelo de difusión de imágenes para la generación de texto a video (por Frontiers of Small Sample Vision and Intelligence)
Tabla de contenido
Directorio de artículos
- Tune-A-Video: Ajuste único de modelos de difusión de imágenes para la generación de texto a vídeo
-
- 01 ¿Insuficiencia del trabajo existente?
- 02 ¿Qué problema resuelve el artículo?
- 03 ¿Cuál es la solución clave?
- 04 ¿Cuál es el principal aporte?
- 05 ¿Qué tipo de trabajos relacionados existen?
- 06 ¿Cómo se implementa el método?
- 07 ¿Cuáles son los resultados experimentales y los efectos comparativos?
- 08 ¿Qué nos dicen los estudios de ablación?
- 09 ¿Cómo se puede optimizar este trabajo?
- 10 Conclusión
01 ¿Insuficiencia del trabajo existente?
Para replicar el éxito de la generación de texto a imagen (T2I), un trabajo reciente utiliza conjuntos de datos de video a gran escala para entrenar generadores de texto a video (T2V). Aunque sus resultados son prometedores, este paradigma es computacionalmente costoso.
02 ¿Qué problema resuelve el artículo?
Proponemos una nueva configuración de generación T2V: sintonización de video de una sola toma, donde solo hay un par texto-video. Nuestro modelo se basa en el modelo de difusión T2I de última generación, que está previamente entrenado con una gran cantidad de datos de imágenes.
03 ¿Cuál es la solución clave?
Presentamos Tune-A-Video, que implica un mecanismo de atención espacio-temporal personalizado y una estrategia de ajuste eficiente de una sola vez. Durante la inferencia, empleamos la inversión DDIM para proporcionar una guía estructural para el muestreo.
04 ¿Cuál es el principal aporte?
- Presentamos una nueva configuración de One-Shot Video Tuning para la generación T2V, que elimina la carga del entrenamiento con conjuntos de datos de video a gran escala.
- Proponemos Tune-A-Video, el primer marco para generar T2V utilizando un modelo T2I previamente entrenado.
- Proponemos un ajuste de atención eficiente y una inversión de estructura, que mejora significativamente la consistencia temporal.
05 ¿Qué tipo de trabajos relacionados existen?
- Modelos de difusión de texto a imagen.
- Modelos generativos de texto a vídeo.
- Edición de vídeo basada en texto.
- Generación a partir de un solo vídeo.
06 ¿Cómo se implementa el método?
Inflación de la red
Mecanismo de autoatención espacial:
Entre ellos, zvi z_{v_i}zvyoes el marco vi v_ivyoLa representación del código latente correspondiente. W∗W^*W.∗ es una matriz que se puede aprender que proyecta la entrada a la consulta, la clave y el valor, y d es la dimensión de salida de las características clave y de consulta.
Proponemos utilizar una versión dispersa del mecanismo de atención causal, donde en el marco zvi z_{v_i}zvyo和帧zv 1 z_{v_1}zv1和zvi − 1 z_{v_{i-1}}zvyo − 1Calcule la matriz de atención intermedia, manteniendo la complejidad computacional baja en O ( 2 m ( N ) 2 ) O(2m(N)^2)O ( 2 m ( norte )2 ).
Implementamos Atención (Q,k,V) de la siguiente manera:
donde [ ⋅ ] [\cdot][ ⋅ ] indica la operación de conexión y la descripción visual se muestra en la Figura 5.
Ajuste fino e inferencia
1)Ajuste del modelo
Ajustamos todas las capas temporales de autoatención (T-Attn) a medida que se agregan recientemente. Además, proponemos refinar la alineación texto-video (Cross-Attn) actualizando la proyección de consulta en atención cruzada. En la práctica, el ajuste fino del bloque de atención es computacionalmente eficiente en comparación con el ajuste completo [39] y al mismo tiempo se preservan las propiedades originales del modelo de difusión T2I previamente entrenado. Utilizamos el mismo objetivo de entrenamiento en ldm estándar [37]. La Figura 4 ilustra el proceso de ajuste con parámetros entrenables resaltados.
2) Guía de estructura basada en la inversión DDIM
El ruido subyacente del vídeo fuente V se obtiene mediante inversión DDIM sin condiciones de texto. Este ruido sirve como punto de partida para el muestreo DDIM, dado por la sugerencia editada T ∗ \mathcal{T}^*t∗ Orientación. Vídeo de salidaV ∗ \mathcal{V}^*V∗ viene dado por:
07 ¿Cuáles son los resultados experimentales y los efectos comparativos?
Aplicaciones
1) Edición de objetos.
Una de las principales aplicaciones de nuestro método es modificar objetos editando señales de texto. Esto permite reemplazar, agregar o eliminar objetos fácilmente. La Figura 6 muestra algunos ejemplos.
2)Cambio de fondo.
Nuestro método también permite al usuario cambiar el fondo del video (es decir, dónde se encuentra el objeto) preservando al mismo tiempo la consistencia del movimiento del objeto. Por ejemplo, podríamos modificar el fondo del esquiador en la Figura 6 para que esté "en la playa" o "atardecer" agregando una nueva descripción de ubicación/hora y cambiando la vista de la carretera lateral del campo en la Figura 7 a una vista del océano.
3) Transferencia de estilo.
Debido al conocimiento de dominio abierto del modelo T2I previamente entrenado, nuestro método traduce videos a varios estilos que son difíciles de aprender solo a partir de datos de video (12). Por ejemplo, convertimos vídeos del mundo real al estilo de un cómic (Fig. 6, o estilo Van Gogh (Fig. 10)) agregando un descriptor de estilo global a las señales.
4) Generación personalizada y controlable
Nuestro método se puede integrar fácilmente con modelos T2I personalizados (por ejemplo, DreamBooth [39], que toma de 3 a 5 imágenes como entrada y devuelve un modelo T2I personalizado), refinándolos directamente. Por ejemplo, podemos utilizar DreamBooth personalizado con "Modern Disney Style" o "Mr. Potato Head" para crear vídeos de un estilo o temática concreta (Fig. 11). Nuestro método también se puede integrar con modelos T2I condicionales como T2I Adapter [29] y ControlNet [52] para aplicar diferentes controles en los videos generados sin costo de capacitación adicional. Por ejemplo, podemos usar una secuencia de poses humanas como controles para editar aún más el movimiento (por ejemplo, bailar en la Figura 1).
resultados cualitativos
Ofrecemos una comparación visual de nuestro método con varias líneas de base en la Figura 7. Por el contrario, nuestro método genera videos temporalmente coherentes que preservan la información estructural en los videos de entrada y son consistentes con palabras y detalles editados. Se pueden encontrar comparaciones cualitativas adicionales en la Figura 12.
Resultados cuantitativos
Cuantificamos nuestro método con respecto a líneas de base a través de métricas automáticas y estudios de usuarios, y reportamos la consistencia del marco y la confianza textual en la Tabla 1.
08 ¿Qué nos dicen los estudios de ablación?
Realizamos un estudio de ablación en Tune-A-Video para evaluar la importancia del mecanismo de atención espacio-temporal (ST-Attn), la inversión DDIM y el ajuste fino. Cada diseño se toma individualmente para analizar su impacto. El resultado se muestra en la Figura 8.
Estos resultados demuestran que todos nuestros diseños clave contribuyen a los resultados exitosos de nuestro método.
09 ¿Cómo se puede optimizar este trabajo?
La Figura 9 muestra la falla de nuestro método cuando el video de entrada contiene múltiples objetos con oclusiones. Esto puede deberse a las limitaciones inherentes de los modelos T2I en el manejo de múltiples objetos e interacciones entre objetos. Una posible solución es utilizar información condicional adicional, como la profundidad, para permitir que el modelo distinga entre diferentes objetos y sus interacciones. La investigación en esta área se deja para futuras investigaciones.
10 Conclusión
En este artículo, presentamos una nueva tarea generada por T2V: sintonización de video de una sola vez. Esta tarea implica entrenar un generador T2V utilizando solo un par de texto y video y un modelo T2I previamente entrenado. Presentamos Tune-A-Video, un marco simple pero efectivo para la generación y edición de videos basados en texto. Para generar videos continuos, proponemos una estrategia de ajuste eficiente y una inversión de estructura que puede generar videos temporalmente coherentes. Amplios experimentos demuestran que nuestro método logra resultados notables en una amplia gama de aplicaciones.
Enlace original: Tnue-A-Video: Ajuste único del modelo de difusión de imágenes para la generación de texto a video (por Frontiers of Small Sample Vision and Intelligence)