O DragGAN é de código aberto e a versão do modelo de difusão do DragDiffusion está aqui!

Deitado, 60.000 palavras! 130 artigos em 30 direções! O papel AIGC mais completo do CVPR 2023! Leia de uma vez.

Reimpresso de: Heart of the Machine | Editores: Du Wei, Chen Ping

Mova o mouse para tornar a imagem "viva" e se tornar o que você deseja.

No mundo mágico do AIGC, podemos alterar e sintetizar a imagem que queremos "arrastando" na imagem. Por exemplo, para fazer um leão virar a cabeça e abrir a boca:

dca326af6d338cb21f11cb33ee170776.gif

A pesquisa para alcançar esse efeito vem do artigo "Drag Your GAN", liderado por um autor chinês, lançado no mês passado e aceito pela conferência SIGGRAPH 2023.

Mais de um mês se passou e a equipe de pesquisa divulgou recentemente o código oficial. Em apenas três dias, o número de estrelas ultrapassou 23k, o que mostra o quão popular é.

c8f31070ad9165db791bf48e1e5d6ba8.png

Endereço do GitHub: https://github.com/XingangPan/DragGAN

Coincidentemente, outra pesquisa semelhante——DragDiffusion chamou a atenção das pessoas hoje. O DragGAN anterior realizou edição de imagem interativa baseada em pontos e alcançou efeitos de edição de precisão em nível de pixel. Mas também há deficiências. DragGAN é baseado na rede de confrontação de geração (GAN), e sua versatilidade será limitada pela capacidade do modelo GAN pré-treinado.

No novo estudo, vários pesquisadores da Universidade Nacional de Cingapura e da ByteDance estenderam essa estrutura de edição ao modelo de difusão e propuseram o DragDiffusion. Usando um modelo de difusão pré-treinado em grande escala, eles melhoraram muito a aplicabilidade da edição interativa baseada em pontos em cenários do mundo real.

Embora a maioria dos métodos atuais de edição de imagens baseados em difusão sejam adequados para incorporação de texto, DragDiffusion otimiza a representação latente de difusão para controle espacial preciso.

9443388d67fd9a3054df3698a8d0f2dd.png

  • Endereço do artigo: https://arxiv.org/abs/2306.14435

  • Endereço do projeto: https://yujun-shi.github.io/projects/dragdiffusion.html

Os pesquisadores disseram que o modelo de difusão gera imagens de maneira iterativa, e a otimização de "uma etapa" da representação latente de difusão é suficiente para gerar resultados coerentes, permitindo que o DragDiffusion conclua com eficiência a edição de alta qualidade.

Eles conduzem experimentos extensos em vários cenários desafiadores (por exemplo, múltiplos objetos, diferentes categorias de objetos), verificando a plasticidade e generalidade do DragDiffusion. O código relevante também será lançado em breve,

Vamos ver como funciona o DragDiffusion.

Primeiramente queremos levantar um pouco mais a cabeça do gatinho da figura abaixo, bastando o usuário arrastar o ponto vermelho até o ponto azul:

3ad553f583e0b80e123ebd2b3c741399.gif

A seguir, queremos deixar a montanha um pouco mais alta, não tem problema, basta arrastar o ponto chave vermelho:

e73f6138004b7c680fff69ad4058c71a.gif

Também quero virar a cabeça da escultura, basta arrastar e soltar:

a7d96c2432eed87e56fcd1588928de6a.gif

Deixe as flores da margem florescerem em uma gama mais ampla:

6d295195c04a1cdffbc89d909e38f412.gif

introdução do método

O DRAGDIFFUSION proposto neste artigo tem como objetivo otimizar variáveis ​​latentes de difusão específicas para edição de imagens interativas baseadas em pontos.

Para atingir esse objetivo, o estudo primeiro ajusta o LoRA com base no modelo de difusão para reconstruir as imagens de entrada do usuário. Isso pode garantir que o estilo das imagens de entrada e saída permaneça consistente.

Em seguida, aplicamos a inversão DDIM (um método que explora a transformação inversa e a manipulação do espaço latente dos modelos de difusão) à imagem de entrada para obter variáveis ​​latentes de difusão específicas da etapa.

Durante o processo de edição, aplicamos iterativamente supervisão de ação e rastreamento de ponto para otimizar as t-ésimas variáveis ​​latentes de difusão obtidas anteriormente para "arrastar" o conteúdo do ponto processado para o local de destino. O processo de edição também aplica um termo de regularização para garantir que as regiões não mascaradas da imagem permaneçam inalteradas.

Finalmente, as variáveis ​​latentes otimizadas do t-ésimo passo são eliminadas por DDIM para obter os resultados editados. O diagrama de visão geral é o seguinte:

a0a2abfeed2e7771c72bdbc939eda0a6.png

Resultados experimentais

Dada uma imagem de entrada, DRAGDIFFUSION "arrasta" o conteúdo dos pontos-chave (vermelho) para os pontos-alvo correspondentes (azul). Por exemplo, na figura (1), a cabeça do cachorro está virada, na figura (7), a boca do tigre está fechada, e assim por diante.

f62e2dad861b8e526b215c20262502b7.png

Abaixo estão mais alguns exemplos de demonstrações. Conforme mostrado na Figura (4), o pico da montanha ficará mais alto, a Figura (7) aumentará o tamanho da caneta e assim por diante.

389bde0f4738e23b98cabedca4b169c9.png

Preste atenção à conta oficial [Machine Learning and AI Generation Creation], coisas mais interessantes estão esperando por você para ler

Explicação simples da difusão estável: interpretação do modelo de difusão potencial por trás da tecnologia de pintura AI

Explicação detalhada do ControlNet, um algoritmo de geração de pintura AIGC controlável! 

Classic GAN tem que ler: StyleGAN

02909832686386962174c10eeca5ed8f.png Clique em mim para ver os álbuns da série GAN~!

Uma xícara de chá com leite, torna-se a fronteira da visão AIGC+CV!

O resumo 100 mais recente e completo! Gerar Modelos de Difusão Modelos de Difusão

ECCV2022 | Resumo de alguns trabalhos sobre geração de rede de confronto GAN

CVPR 2022 | Mais de 25 direções, os últimos 50 documentos do GAN

 ICCV 2021 | Resumo dos artigos do GAN sobre 35 temas

Mais de 110 artigos! CVPR 2021 penteadeira de papel GAN ​​mais completa

Mais de 100 artigos! CVPR 2020 penteadeira de papel GAN ​​mais completa

Desmontando o novo GAN: dissociando a representação MixNMatch

StarGAN versão 2: geração de imagens de diversidade de vários domínios

Download em anexo | Versão chinesa de "Explainable Machine Learning"

Download em anexo | "Algoritmos de aprendizado profundo do TensorFlow 2.0 na prática"

Download em anexo | "Métodos Matemáticos em Visão Computacional" share

"Uma revisão dos métodos de detecção de defeitos de superfície com base no aprendizado profundo"

Uma pesquisa de classificação de imagens Zero-Shot: uma década de progresso

"Uma pesquisa de aprendizagem de poucos tiros baseada em redes neurais profundas"

"Livro dos Ritos·Xue Ji" tem um ditado: "Aprender sozinho sem amigos é solitário e ignorante."

Clique em uma xícara de chá com leite e torne-se o vacilante da fronteira da visão AIGC+CV! , junte-se  ao planeta da criação gerada por IA e  conhecimento de visão computacional!

Acho que você gosta

Origin blog.csdn.net/lgzlgz3102/article/details/131799236
Recomendado
Clasificación