O novo trabalho do inventor do CycleGAN: AI Realizes Art Cinemagraph, o maravilhoso efeito de “em cima da imagem estática, o vídeo não está cheio”! ...

Fonte do artigo Editor Xinzhiyuan: Taozi

【Guia】 Enciclopédia Baidu: "Cinemagraph, a tecnologia mágica de movimento sutil em fotos estáticas. Como o nome sugere (cinema é fotografia cinematográfica, gráfico são imagens) é uma combinação de fotografia dinâmica e imagens estáticas. Esta arte fluiu pela primeira vez do site cinemagraphs , dos artistas de Nova York Jamie e Kevin."
O mais recente modelo de IA, Text2Cinemagraph, pode animar obras de mestres de arte com apenas uma linha de texto.

O novo artigo do chefe do CV, Zhu Junyan, fez os animadores se sentirem em perigo.

É necessária apenas uma frase e o modelo pode gerar uma animação com estilo consistente e excelente qualidade.

Usando a Noite Estrelada de Van Gogh como referência, crie a imagem de um riacho fluindo em frente a uma montanha.

b666f8d5694761330a61340c2b507632.gif

Ou, no estilo de Afremov, crie uma paisagem de cachoeiras que descem das montanhas.

ed580e821c0927be87bde9eb53a2687a.gif

Recentemente, pesquisadores da CMU e do Snap Institute construíram um método totalmente automático para criar imagens de filmes a partir de descrições de texto - Text2Cinemagraph.

f871ba741357b026153e00d2e67257bc.png

Endereço do artigo: https://arxiv.org/pdf/2307.03190.pdf

Além disso, os pesquisadores demonstraram duas extensões, animando desenhos existentes e usando texto para controlar a direção do movimento.

Por que não assistimos a uma demonstração primeiro?

greves de demonstração


A direção do fluxo acima da Noite Estrelada de Van Gogh pode ser controlada movendo a boca.

Por exemplo, da esquerda para a direita.

5b366d072ee89dc3b4aefea54d377ed6.gif

Depois, da direita para a esquerda.

ae587673e1d385c5e632042bb35a591a.png

Mesmo estilo, paisagem diferente.

a24ef78a6c5303fe071cfbec12cabe28.gif

‍Qualidade de filme, navegando no mar.

471ac212743127f4d46d6ddeb9a6b8bc.gif

Ao pôr do sol, no estilo da pintura de Van Gogh, uma grande cachoeira cai entre os morros, 4K.

4553c455f111fce3f5060ef43253d56a.gif

Estilo Picasso, uma cabana de madeira com um barco flutuando no lago.

fe762ba949d0b4a0f0a65db399a0afcf.gif

Ilustração ultra-realista de um farol sendo atacado por um monstro marinho e tentáculos envolvendo toda a torre.

8b37d386821bf6bbebf7506f184eb6d7.gif

Cena surreal e fantástica da cachoeira

d79fcf81ea7279343cee4022f6888588.gif

Projeto Text2Cinemagraph


Atualmente, os métodos existentes de animação de imagem única são insuficientes em termos de contribuição artística.

Embora os métodos de vídeo baseados em texto de última geração frequentemente introduzam inconsistências temporais, tornando difícil manter certas regiões estáticas.

Para enfrentar esses desafios, os pesquisadores propõem a ideia de sintetizar imagens gêmeas, ou seja, um par de imagens artísticas e seu alinhamento de pixels, a partir de uma única sugestão de texto.

As imagens artísticas retratam o estilo e a aparência detalhados nas instruções de texto, enquanto as imagens realistas simplificam bastante o layout e a análise de movimento.

00b006c64f8571e64f08e5b197e54348.png

Usando conjuntos de dados naturais de imagens e vídeos existentes, o Text2Cinemagraph pode segmentar com precisão imagens realistas e prever movimentos plausíveis com base em informações semânticas.

O movimento previsto pode então ser transferido para imagens artísticas para criar a animação cinematográfica final.

Especificamente, dada uma sugestão textual c, a Difusão Estável é usada para gerar imagens gêmeas, uma imagem artística x no estilo descrito na sugestão textual e uma contraparte realista d0bd214c5cd5c25d21dd1e5c772fec5e.pngusando a sugestão modificada 416765a1a2a12f1b37b4d3eff4eb5da1.png. As imagens siamesas têm layouts semânticos semelhantes.

Os pesquisadores então extraem máscaras binárias M de regiões de movimento dos mapas de autoatenção obtidos durante a geração de imagens artísticas.

Use máscaras e imagens realistas para prever fluxo óptico 67483c0de440ce1a77c74e0c7fd294d8.pnge modelos de previsão de fluxo 1fb6e94e701377946a797aaccdd2cde4.png.

Como as imagens gêmeas têm layouts semânticos muito semelhantes, fluxo óptico 6d224ca481f8fe8e0c8558170a2e8134.pnge geradores de vídeo podem ser usados 7f39af93df152f0b07825fea55959ead.png​​para animar imagens artísticas.

Vale ressaltar que todos os experimentos deste estudo são baseados na Difusão Estável.

95a3b93ff5e35a96cb522d9bcfd8c6ab.gif

Os pesquisadores compararam o efeito real do fluxo óptico.

Média do fluxo óptico verdadeiro em todos os quadros no Text2Cinemagraph em comparação com SLR-SFS, abordagem de pesquisa de animação de imagem única de Holynski et al.

No geral, o método de última geração prevê movimentos mais plausíveis que melhor correspondem à região alvo.

d8bd7a99774b76b7b262c1dfeb3d8292.png

Além disso, através da pesquisa de preferências do usuário, a maioria dos participantes é a favor do Text2Cinemagraph.

46cbf4ae473f3119e78fc1e54e5c1668.png

Por fim, os pesquisadores também demonstraram duas extensões: animar desenhos existentes e usar texto para controlar a direção do movimento.

Animar uma pintura existente

A seguir está A Nona Onda (1850) exibida no Museu Russo.

5e744ce12fa1330f170747b07d7ca654.gif

Óleo sobre tela Minnehaha Falls, de Albert Bierstadt.

0742fec1503c858597b8a6790d208b0f.gif

Sobre o autor


Jun-Yan Zhu

01fe13979d8e5d55794078adf9c29cb5.png

Zhu Junyan é atualmente professor assistente no Instituto de Robótica da Escola de Ciência da Computação da CMU e é pioneiro na aplicação do aprendizado de máquina moderno no campo da computação gráfica.

Antes de ingressar na CMU, ele foi pesquisador na Adobe Research.

Ele fez pós-doutorado no MIT CSAIL, trabalhando com William T. Freeman, Josh Tenenbaum e Antonio Torralba.

Ele também recebeu seu doutorado pela UC Berkeley sob a supervisão de Alexei A. Efros. E recebeu o diploma de bacharel pela Universidade de Tsinghua, trabalhando com Zhuowen Tu, Shi-Min Hu e Eric Chang.

Referências:

https://text2cinemagraph.github.io/website/

Preste atenção na conta oficial [Machine Learning and AI Generation Creation], coisas mais interessantes estão esperando por você para ler

Deitado, 60.000 palavras! 130 artigos em 30 direções! O artigo AIGC mais completo do CVPR 2023! leia de uma só vez

Explicação simples da difusão estável: interpretação do modelo de difusão potencial por trás da tecnologia de pintura AI

Explicação detalhada do ControlNet, um algoritmo controlável de geração de pintura AIGC! 

O GAN clássico deve ser lido: StyleGAN

3cf984a1757ab2c6ab48962f09b5f751.png Clique em mim para ver os álbuns da série GAN ~!

Uma xícara de chá com leite, torne-se a fronteira da visão AIGC + CV!

O resumo 100 mais recente e completo! Gerar modelos de difusão Modelos de difusão

ECCV2022 | Resumo de alguns artigos sobre geração de rede de confronto GAN

CVPR 2022 | Mais de 25 direções, 50 artigos GAN mais recentes

 ICCV 2021 | Resumo dos artigos do GAN sobre 35 tópicos

Mais de 110 artigos! CVPR 2021 penteado de papel GAN ​​mais completo

Mais de 100 artigos! CVPR 2020 mais completo penteado de papel GAN

Desmontando o novo GAN: dissociando a representação MixNMatch

StarGAN versão 2: geração de imagens de diversidade multidomínio

Download em anexo | Versão chinesa de "Explainable Machine Learning"

Download em anexo | "Algoritmos de aprendizado profundo do TensorFlow 2.0 na prática"

Download em anexo | Compartilhar "Métodos Matemáticos em Visão Computacional"

"Uma revisão dos métodos de detecção de defeitos de superfície baseados em aprendizagem profunda"

Uma pesquisa sobre classificação de imagens Zero-Shot: uma década de progresso

"Uma pesquisa de aprendizagem rápida baseada em redes neurais profundas"

O "Livro dos Ritos · Xue Ji" tem um ditado: "Aprender sozinho, sem amigos, é solitário e ignorante."

Clique em uma xícara de chá com leite e torne-se o líder da visão AIGC + CV! , junte-se  ao planeta da criação gerada por IA e  do conhecimento de visão computacional!    

Acho que você gosta

Origin blog.csdn.net/lgzlgz3102/article/details/132439976
Recomendado
Clasificación