StableVideo: genere videos continuos sin parpadeos usando Stable Diffusion

Generar video usando Stable Diffusion siempre ha sido un objetivo de investigación, pero el mayor problema que encontramos fue el parpadeo entre cuadros de video y cuadros, pero el último artículo se enfoca en resolver este problema.

Este artículo resume el artículo "StableVideo: edición de video de difusión con reconocimiento de coherencia basada en texto" de Chai et al., que propone un nuevo método para permitir que los modelos de difusión editen videos con alta consistencia temporal. La idea clave es:

1. Propagación entre cuadros para una apariencia consistente del objeto

2. Agregación de Atlas para movimiento y geometría coherentes.

Los experimentos del artículo muestran que la edición de vídeo funciona mejor que los métodos más modernos.

El StableVideo propuesto es un marco de edición de vídeo basado en texto. Amplios experimentos con vídeos naturales muestran que StableVideo produce resultados de edición superiores manteniendo la forma geométrica y la continuidad temporal en comparación con otros métodos basados ​​en la difusión.

Modelos de edición y difusión de imágenes.

Los modelos de difusión han surgido como modelos generativos profundos de última generación para generar y editar imágenes de alta fidelidad basadas en señales o condiciones de texto. Modelos como DALL-E2 y Stable Diffusion pueden sintetizar imágenes realistas que se ajustan a la descripción textual deseada. Para la edición de imágenes también es posible modificar semánticamente las imágenes en función del texto.

Pero aplicar directamente modelos de difusión a la edición de vídeo sigue siendo un desafío hasta el momento. Una de las principales razones clave aquí es la falta de coherencia temporal: los modelos SD editan cada cuadro de forma directa e independiente, por lo que esto a menudo resulta en efectos de parpadeo y movimiento entrecortado.

Edición de vídeo basada en la representación Atlas

Para propagar sin problemas las ediciones entre fotogramas de vídeo, muchos estudios han propuesto descomponer los vídeos en representaciones de atlas. Los fotogramas de vídeo se asignan a un espacio de coordenadas bidimensional unificado, llamado atlas, que agrega píxeles a lo largo del tiempo. La edición de esta colección permite realizar cambios coherentes en todo el vídeo durante el proceso de mapeo.

Investigaciones anteriores omnimates y Neural Layer Atlas (NLA), que separan el primer plano y el fondo en diferentes atlas. Y Text2LIVE agrega una capa adicional sobre NLA Atlas para la edición de apariencia basada en texto. Pero los estudios que utilizan modelos de difusión directamente no han tenido éxito.

Marco de video estable

El marco StableVideo permite la edición de vídeo basada en difusión de alta calidad con coherencia temporal al combinar las ventajas de ambos. Su idea era que, en lugar de editar el atlas directamente, editar primero los fotogramas clave y luego agregarlos al atlas editado daría mejores resultados.

Es decir, específicamente, el canal primero descompone el video de entrada en atlas de primer plano y de fondo usando NLA. Luego aplique el modelo de difusión para editar el fondo y el fotograma clave del primer plano respectivamente de acuerdo con las indicaciones del texto. Para garantizar una apariencia coherente, edite los fotogramas clave de primer plano mediante la propagación entre fotogramas. Los fotogramas clave editados se agregan en un nuevo atlas de primer plano, que junto con el fondo editado reconstruyen el vídeo de salida final.

Introducción al método

1. Descomposición de vídeo basada en un atlas jerárquico neuronal

Como requisito previo, el vídeo de entrada se descompone en atlas de primer plano y de fondo utilizando un modelo NLA previamente entrenado. Esto proporciona un mapeo entre las coordenadas de píxeles y las coordenadas del atlas normalizadas para el primer plano y el fondo:

UVb(.) = Mb(I)

UVf(.) = Mf(I)

Aquí I es el cuadro de entrada, mientras que UVb y UVf dan las posiciones correspondientes en los atlas de fondo y primer plano, respectivamente.

2. Edición basada en difusión

El proceso de edición real utiliza los modelos de difusión Gb y Gf como fondo y primer plano. Gb edita directamente el atlas de fondo y Gf edita el fotograma clave de primer plano:

Ab_edit = Gb(Ab, text_prompt) //Editar atlas de fondo

Ei = Gf(Fi, text_prompt) //Editar fotograma clave

Trabajar con fotogramas clave proporciona una edición más confiable que los atlas muy distorsionados.

3. Edición de primer plano de propagación entre fotogramas

Para garantizar la coherencia temporal de la edición de fotogramas clave, se propone un mecanismo de propagación entre fotogramas. Para el primer cuadro F0, el modelo de difusión Gf se edita normalmente:

E0 = Gf(F0, aviso_texto, guía_estructura)

Para el cuadro posterior Fi, las ediciones están condicionadas a la señal de texto y la apariencia del cuadro anterior Ei-1:

  • Mapeo parcial del Atlas de Ei-1 a AI-1f
  • Asigne inversamente Ai-1_f al cuadro actual E^i
  • Se elimina el ruido de E^i siguiendo indicaciones textuales y orientación estructural para obtener Ei.

Esta propagación permite la generación secuencial de nuevos objetos de primer plano con una apariencia consistente entre fotogramas clave.

4. Agregación de atlas

Los fotogramas clave editados se agregan en un atlas de primer plano unificado mediante una simple CNN 3D. La red está entrenada para minimizar el error de reconstrucción entre fotogramas clave y su mapeo inverso del atlas agregado. Este estrecho acoplamiento garantiza que las ediciones se fusionen en un atlas temporalmente consistente.

Finalmente, los atlas editados de primer plano y fondo se mapean y componen para obtener el cuadro de video editado final. Utilice la máscara de división de primer plano original para mezclar las capas.

Ventaja

El artículo demuestra una variedad de escenarios de edición de video, como síntesis, transferencia de estilo y reemplazo de fondo para videos naturales que contienen acciones complejas. Tanto los experimentos cualitativos como cuantitativos muestran que StableVideo supera a los métodos existentes basados ​​en difusión:

  • Mensajes de texto más confiables que Tune-A-Video
  • Mucho menos parpadeo y deriva que Tune-A-Video
  • Edición más completa que Text2LIVE al evitar la distorsión del atlas
  • Inferencia más rápida que el vídeo completo/reentrenamiento editado en Text2LIVE/Tune-A-Video

Los experimentos de ablación también validan la contribución de los módulos de propagación y agregación propuestos: la propagación de fotogramas clave mejora en gran medida la coherencia de la apariencia en comparación con la edición independiente. Para un vídeo de 70 fps y 768 x 432 en una sola GPU, solo tarda 30 segundos en ejecutarse.

instalación y uso

 git clone https://github.com/rese1f/StableVideo.git
 conda create -n stablevideo python=3.11
 pip install -r requirements.txt

Todos los modelos y detectores se pueden descargar desde la página de ControlNet.

Entonces el directorio de trabajo es así

 StableVideo
 ├── ...
 ├── ckpt
 │   ├── cldm_v15.yaml
 |   ├── dpt_hybrid-midas-501f0c75.pt
 │   ├── control_sd15_canny.pth
 │   └── control_sd15_depth.pth
 ├── data
 │   └── car-turn
 │       ├── checkpoint # NLA models are stored here
 │       ├── car-turn # contains video frames
 │       ├── ...
 │   ├── blackswan
 │   ├── ...
 └── ...

correr

 python app.py

Después de hacer clic en el botón renderizar, el vídeo mp4 resultante y los fotogramas clave se almacenarán en el directorio /log.

Resumir

StableVideo es un nuevo enfoque para la edición de vídeo basada en texto de alta calidad y consistencia temporal con un modelo de difusión. La idea central es editar fotogramas clave y propagar apariencias entre ellos y agregar ediciones en un espacio de atlas unificado. Amplios experimentos demuestran la coherencia superior del método propuesto para editar una amplia gama de vídeos naturales. Esta técnica proporciona una solución eficaz para adaptar potentes modelos de difusión para una edición de vídeo fluida.

Vea nuestro vídeo de demostración:

https://weixin.qq.com/sph/AkqDCb

Finalmente, la dirección en papel:

https://avoid.overfit.cn/post/bc9b051949ea48078de19b3d5622e326

Autor: TutorMaster

Supongo que te gusta

Origin blog.csdn.net/m0_46510245/article/details/132469664
Recomendado
Clasificación