Text2Video-Zero: modelo de difusão de texto para imagem é um gerador de vídeo Zero-Shot

Text2Video-Zero: modelos de difusão de texto para imagem são geradores de vídeo Zero-Shot

Artigo: https://arxiv.org/abs/2303.13439
Projeto: https://github.com/Picsart-AI-Research/Text2Video-Zero
Link original: Text2Video-Zero: O modelo de difusão de texto para imagem é Zero-Shot Gerador de vídeo (por pequena amostra de visão e fronteira de inteligência)

Índice

01 Insuficiência do trabalho existente?

Métodos recentes de geração de texto para vídeo dependem de treinamento computacionalmente intensivo e requerem conjuntos de dados de vídeo em grande escala.

02 Que problema o artigo resolve?

Neste artigo, apresentamos a nova tarefa de geração de texto para vídeo de disparo zero e propomos um método de baixo custo (sem qualquer treinamento ou otimização), aproveitando os recursos dos métodos existentes de síntese de texto para imagem, como difusão estável ), tornando-o adequado para o domínio de vídeo.

03 Qual é a solução chave?

  • Use o movimento para gerar dinamicamente o código oculto do quadro para manter a cena global e o tempo de fundo consistentes;
  • A autoatenção em nível de quadro é reprogramada usando uma nova atenção entre quadros para cada quadro no topo do primeiro quadro para preservar o contexto, a aparência e a identidade dos objetos em primeiro plano.

04 Qual é a principal contribuição?

  • Uma nova configuração de problema para síntese de texto para vídeo de disparo zero, com o objetivo de tornar a geração e edição de vídeo guiada por texto "acessível gratuitamente". Usamos apenas o modelo de difusão de texto para imagem pré-treinado, sem qualquer ajuste ou otimização adicional.
  • Duas novas técnicas post-hoc reforçam a geração temporalmente consistente, codificando a dinâmica de movimento no código latente e reprogramando a autoatenção por quadro com uma nova atenção de quadro cruzado.
  • Uma variedade de aplicações demonstram a eficácia de nossa abordagem, incluindo geração de vídeo condicional e especializada e instrução de vídeo-pix2pix, ou seja, edição de vídeos por meio de instruções de texto.

05 Que tipo de trabalhos relacionados existem?

  • Geração de texto para imagem
  • Geração de texto para vídeo

Ao contrário dos métodos acima, nosso método não requer nenhum treinamento, não requer muito poder de computação ou dezenas de GPUs, o que torna o processo de geração de vídeo acessível para todos. Nesse aspecto, Tunea Video [41] é o que mais se aproxima do nosso trabalho, pois reduz a computação necessária para sintonizar apenas um único vídeo. No entanto, ainda requer um processo de otimização e depende muito de vídeos de referência.

06 Como o método é implementado?

Formulação de problema de texto para vídeo de disparo zero

Dada uma descrição de texto τ e um inteiro positivo m∈N, o objetivo é projetar uma função F \mathcal{F}F , o quadro de vídeo de saídaV ∈ R mx H x W x 3 V \in R^{mxHxWx3}VRm x A x L x 3 (para uma resolução predefinida H×L), eles exibem consistência temporal.

Para determinar a função F \mathcal{F}F , não requer treinamento ou ajuste fino em conjuntos de dados de vídeo.

Nossa formulação de problema fornece um novo paradigma para geração de texto para vídeo. Notavelmente, os métodos de texto para vídeo de disparo zero exploram naturalmente as melhorias de qualidade dos modelos de texto para imagem.

detalhes do método

Visando os problemas de aparência e tempo inconsistentes no método ingênuo, propomos:

  • Códigos latentes introduzidos x T 1 , . . . , x T m x_T^1,...,x_T^mxT1,... ,xTeuentre a dinâmica do movimento para manter o tempo da cena global consistente.
  • Um mecanismo de atenção cross-frame é usado para preservar a aparência e a identidade dos objetos em primeiro plano.

A estrutura geral é mostrada na Figura 2.

Figura 2. Estrutura do método

1) Dinâmica de movimento do código latente

Construímos o código latente x T 1 executando as seguintes etapas : m x_T^{1:m}xT1 : m, em vez de amostrá-los aleatoriamente independentemente de uma distribuição gaussiana padrão (ver também Algoritmo 1 e Figura 2).

  1. Amostra aleatória do código latente do primeiro quadro x T 1 x_T^1xT1~ N ( 0 , 1 ) N (0,1)N ( 0 ,1 ) .
  2. Usando o modelo SD, em x T 1 x_T^1xT1Execute a retropropagação DDIM em etapa ∆t acima para obter o código latente correspondente x T ′ 1 x_{T'}^1xT'1,其中T ′ = T − Δ t T' = T - \Delta tT'=T-Δt . _
  3. Defina uma direção δ = ( δ x , δ y ) ∈ R 2 \delta = (\delta_x,\delta_y) \in R^2 para a cena global e o movimento da câmerad=( dx,dvocê)R2 . Padrãoδ \deltaδ pode ser a direção diagonal principal, ou seja,δ x = δ y = 1 \delta_x = \delta_y = 1dx=dvocê=1
  4. Para cada quadro k = 1 , 2 , . . . , mk=1,2,...,mk=1 ,2 ,... ,δ k = λ ⋅ ( k − 1 ) δ \delta^k = \lambda \cdot(k-1)\ deltadk=eu( k-1 ) d , ondeλ\lambdaλ é um hiperparâmetro que controla o movimento global.
  5. Construa o fluxo de translação de movimento, a sequência final é expressa como x ~ T ′ 1 : m \tilde{x}_{T'}^{1:m}x~T'1 : m, onde W k ( ⋅ ) W_k(\cdot)Ck( ) é através do vetorδ k \delta^kdOperação de distorção para tradução k .

  1. Execute Δ t \Delta t em quadros de 2 mΔ t -step propagação direta do DDPM, obtenha o código latente correspondentex T 2 : m x_T^{2:m}xT2 : m.

2) Reprogramar a atenção entre quadros

Usamos um mecanismo de atenção cross-frame para preservar informações sobre (em particular) a aparência, forma e identidade dos objetos em primeiro plano ao longo do vídeo gerado.

Para utilizar a atenção cross-frame enquanto exploramos o SD pré-treinado sem retreinamento, substituímos cada uma de suas camadas de autoatenção pela atenção cross-frame, onde a atenção de cada quadro está focada no primeiro quadro.
Formulação de atenção:

Em nosso esquema, cada camada de atenção recebe m entradas, portanto, a camada de injeção linear produz m Q, K, V respectivamente.
Portanto, podemos substituir o valor do primeiro quadro pelo valor de outros quadros de 2 m para obter atenção de quadro cruzado:


Ao usar a atenção entre quadros, a aparência, a estrutura e a identidade dos objetos e fundos são transferidas do primeiro quadro para os quadros subsequentes, aumentando significativamente a consistência temporal dos quadros gerados (ver Figura 10 e seus apêndices, Figuras 16, 20, 21).

3) Suavização de fundo

Com base no trabalho anterior, aplicamos a detecção de objetos salientes (uma solução interna) [39] à imagem decodificada para obter uma máscara de primeiro plano M k correspondente a k para cada quadro M^ kMk . Então de acordo comW k W_kCkPar de dinâmica de movimento usado definido xt 1 x_t^1xt1Transforme e expresse o resultado como x ^ tk : = W k ( xt 1 ) \hat{x}_t^k:=W_k(x_t^1)x^tk:=Ck( xt1)

A suavização de fundo é obtida pelo código latente real xtk x_t^kxtkcom o código latente distorcido x ^ tk \hat{x}_t^k em segundo planox^tkA combinação convexa é realizada, ou seja:


onde α \alfaα é um hiperparâmetro (considerado 0,6 no experimento). Quando nenhuma orientação é fornecida, usamos suavização de fundo ao gerar vídeo a partir de texto. Para estudos de ablação sobre suavização de fundo, consulte o Apêndice Seção 6.2.

Texto para vídeo condicional e específico

Para orientar nosso processo de geração de vídeo, aplicamos nosso método ao processo básico de difusão, que enriquece o código latente x T 1 : m x_{T}^{1:m} com informações de movimentoxT1 : me converter a autoatenção no UNet em atenção cross-frame. Ao adotar o UNet para tarefas de geração de vídeo, aplique a ramificação de replicação por quadro pré-treinada do ControlNet em cada código latente de quadro e adicione a saída da ramificação ControlNet às conexões de salto do UNet.

Fig 4. Estrutura de Text2Video-Zero + ControlNet

Instrução de vídeo-Pix2Pix

Com o surgimento dos métodos de edição de imagem guiados por texto, como Prompt2Prompt [9], directiva-pix2pix [2], SDEdit [19], etc., surgiram métodos de edição de vídeo guiados por texto [1, 16, 41]. Embora esses métodos exijam procedimentos de otimização complexos, nosso método pode adotar qualquer algoritmo de edição de imagem guiado por texto baseado em SD no domínio de vídeo sem qualquer treinamento ou ajuste fino. Aqui pegamos o método de edição de imagem guiado por texto instrução-pix2pix e o combinamos com nosso método. Mais precisamente, alteramos o mecanismo de autoatenção na diretiva-pix2pix para atenção de quadro cruzado de acordo com a Equação 8.

Nossos experimentos mostram que esta adaptação melhora significativamente a consistência dos vídeos editados (ver Figura 9).

07 Quais são os resultados experimentais e efeitos comparativos?

avaliação qualitativa

No caso de texto para vídeo, observamos que ele gera vídeos de alta qualidade e bem alinhados com as dicas do texto (ver Figura 3 e Apêndice). Por exemplo, o panda da pintura anda naturalmente pela rua. Da mesma forma, usando orientação adicional de bordas ou poses (ver Figuras 5, 6, 7 e Apêndice), vídeos de alta qualidade combinando dicas e orientações podem ser gerados com boa consistência temporal e preservação de identidade. No caso do vídeo Instruct-pix2pix (veja a Figura 1 e o Apêndice), o vídeo resultante tem alta fidelidade em relação ao vídeo de entrada, seguindo rigorosamente as instruções.

Fig 3. Resultados de texto para vídeo.  Molduras delineadas sugerem que a identidade e a aparência são temporalmente consistentes e se ajustam às pistas textuais.  Consulte o Apêndice Seção 6 para obter mais resultados.

Fig 5. Geração condicional com controle de pose.  Mais resultados podem ser encontrados no Apêndice, Seção 8.

Fig 6. Geração condicional com controle de borda.  Mais resultados podem ser encontrados na Seção 7 do Apêndice.

Fig 7. Geração condicional com controle de arestas e modelo de banco de dados.

Comparar com a linha de base

1) Comparação quantitativa

Para mostrar resultados quantitativos, avaliamos a pontuação CLIP [10], que representa o alinhamento vídeo-texto. Selecionamos aleatoriamente 25 vídeos gerados pelo CogVideo e seguimos nosso método para sintetizar os vídeos correspondentes com os mesmos prompts. As pontuações CLIP do nosso método e CogVideo são 31,19 e 29,63, respectivamente. Portanto, nosso método supera ligeiramente o CogVideo, embora este último tenha 9,4 bilhões de parâmetros e exija treinamento em larga escala em vídeos.

2) Comparação qualitativa

Apresentamos vários resultados do nosso método na Fig. 8 e fazemos uma comparação qualitativa com o CogVideo [15]. Ambos os métodos exibem boa consistência temporal entre sequências, mantendo a identidade dos objetos e fundos. No entanto, nosso método mostra melhor alinhamento texto-vídeo. Por exemplo, enquanto nosso método gera corretamente o vídeo de uma pessoa andando de bicicleta sob a luz do sol na Figura 8(b), o CogVideo define o fundo para a luz da lua. Também na Figura 8(a), nosso método mostra corretamente uma pessoa correndo na neve, enquanto nem a neve nem a pessoa correndo são claramente visíveis no vídeo gerado pelo CogVideo.

Fig 8. Comparação do nosso método com o CogVideo na tarefa de geração de texto para vídeo (nosso método à esquerda, CogVideo [15] à direita).  Veja o Apêndice Figura 12 para mais comparações.

Os resultados qualitativos da instrução de vídeo-pix2pix e comparação visual com a diretiva por quadro-pix2pix e Tune-AVideo são mostrados na Figura 9. Embora a instrução-pix2pix mostre um bom desempenho de edição por quadro, falta consistência temporal. Isto é especialmente evidente em vídeos que retratam esquiadores, onde a neve e o céu são desenhados em diferentes estilos e cores. Usando nossa abordagem Vídeo instrução-pix2pix, esses problemas são resolvidos, resultando em uma edição de vídeo temporalmente consistente ao longo da sequência.

Fig 9. Comparação da instrução de vídeo-pix2pix (nossa) com Tune-A-Video e instrução por quadro-pix2pix.  Para mais comparações, consulte o apêndice

Embora o Tune-A-Video crie uma geração de vídeo temporalmente consistente, ele é menos consistente com a orientação de instruções do que o nosso método, tem dificuldade em criar edições locais e perde detalhes da sequência de entrada. Isso fica evidente na edição do vídeo da dançarina retratado na Figura 9 (esquerda). Comparado com Tune-A-Video, nosso método preserva melhor o fundo, por exemplo, a parede atrás da dançarina permanece quase inalterada. Tune-A-Video pinta uma parede fortemente modificada. Além disso, nosso método é mais fiel aos detalhes de entrada, por exemplo, a instrução de vídeo-pix2pix desenha os dançarinos exatamente nas poses fornecidas (Fig. 9 à esquerda) e mostra todos os esquiadores que aparecem no vídeo de entrada (compare a Fig. )), em comparação com Sintonize um vídeo. Todas as fraquezas do Tune-A-Video mencionadas acima também podem ser observadas na avaliação adicional fornecida no apêndice (Fig. 23, 24).

08 O que nos dizem os estudos de ablação?

Os resultados qualitativos são mostrados na Figura 10. Usando apenas o modelo base, ou seja, sem as nossas alterações (primeira linha), a consistência temporal não pode ser alcançada. Isso é especialmente importante para a geração irrestrita de texto para vídeo. Por exemplo, a aparência e a posição do cavalo mudam muito rapidamente e o fundo é completamente inconsistente. Usando nossa dinâmica de movimento proposta (segunda linha), o conceito geral do vídeo é melhor preservado ao longo da sequência. Por exemplo, todos os quadros mostram um close de um cavalo em movimento. Da mesma forma, a aparência da mulher e o fundo das quatro figuras do meio (usando ControlNet com orientação de borda) foram bastante melhorados.

10. Estudos de ablação mostrando os efeitos de nossos componentes propostos de edição de texto para vídeo e de edição de vídeo guiada por texto.  Resultados adicionais do estudo de ablação são fornecidos no Apêndice.

Usando nossa atenção de quadro cruzado proposta (terceira linha), vemos que a preservação da identidade do objeto e sua aparência é melhorada em todos os quadros. Finalmente, ao combinar estes dois conceitos (última linha), alcançamos uma coerência temporal ideal. Por exemplo, vemos o mesmo padrão de fundo e preservação da identidade do objeto nas últimas quatro colunas, enquanto fazemos a transição natural entre as imagens geradas.

09 Conclusão

Neste artigo, propomos um novo método para geração de vídeo temporalmente consistente para o problema de síntese de texto para vídeo de disparo zero. Nossa abordagem não requer nenhuma otimização ou ajuste fino, tornando a geração de texto para vídeo e suas aplicações acessíveis a todos.

Demonstramos a eficácia do nosso método em diversas aplicações, incluindo geração de vídeo condicional e profissional e orientação de vídeo - pix2pix, ou seja, edição de vídeo guiada.

Nossas contribuições para a área incluem a formulação do novo problema de síntese de texto para vídeo de disparo zero, demonstrando o uso de modelos de difusão de texto para imagem para gerar vídeos temporalmente consistentes e fornecendo demonstrações de nosso método em várias aplicações de síntese de vídeo. Evidência de eficácia. Acreditamos que o nosso método proposto abrirá novas possibilidades para geração e edição de vídeo, tornando-o acessível e acessível para todos.

Link original: Text2Video-Zero: o modelo de difusão de texto para imagem é um gerador de vídeo Zero-Shot (por pequena amostra de visão e fronteira de inteligência)

Acho que você gosta

Origin blog.csdn.net/NGUever15/article/details/131394707
Recomendado
Clasificación