O DragGAN é de código aberto e a versão do modelo de difusão do DragDiffusion está aqui!

Deitado, 60.000 palavras! 130 artigos em 30 direções! O papel AIGC mais completo do CVPR 2023! Leia de uma vez.

Reimpresso de: Heart of the Machine | Editores: Du Wei, Chen Ping

Mova o mouse para tornar a imagem "viva" e se tornar o que você deseja.

No mundo mágico do AIGC, podemos alterar e sintetizar a imagem que queremos "arrastando" na imagem. Por exemplo, para fazer um leão virar a cabeça e abrir a boca:

A pesquisa para alcançar esse efeito vem do artigo "Drag Your GAN", liderado por um autor chinês, lançado no mês passado e aceito pela conferência SIGGRAPH 2023.

Mais de um mês se passou e a equipe de pesquisa divulgou recentemente o código oficial. Em apenas três dias, o número de estrelas ultrapassou 23k, o que mostra o quão popular é.

Endereço do GitHub: https://github.com/XingangPan/DragGAN

Coincidentemente, outra pesquisa semelhante——DragDiffusion chamou a atenção das pessoas hoje. O DragGAN anterior realizou edição de imagem interativa baseada em pontos e alcançou efeitos de edição de precisão em nível de pixel. Mas também há deficiências. DragGAN é baseado na rede de confrontação de geração (GAN), e sua versatilidade será limitada pela capacidade do modelo GAN pré-treinado.

No novo estudo, vários pesquisadores da Universidade Nacional de Cingapura e da ByteDance estenderam essa estrutura de edição ao modelo de difusão e propuseram o DragDiffusion. Usando um modelo de difusão pré-treinado em grande escala, eles melhoraram muito a aplicabilidade da edição interativa baseada em pontos em cenários do mundo real.

Embora a maioria dos métodos atuais de edição de imagens baseados em difusão sejam adequados para incorporação de texto, DragDiffusion otimiza a representação latente de difusão para controle espacial preciso.

Endereço do artigo: https://arxiv.org/abs/2306.14435
Endereço do projeto: https://yujun-shi.github.io/projects/dragdiffusion.html

Os pesquisadores disseram que o modelo de difusão gera imagens de maneira iterativa, e a otimização de "uma etapa" da representação latente de difusão é suficiente para gerar resultados coerentes, permitindo que o DragDiffusion conclua com eficiência a edição de alta qualidade.

Eles conduzem experimentos extensos em vários cenários desafiadores (por exemplo, múltiplos objetos, diferentes categorias de objetos), verificando a plasticidade e generalidade do DragDiffusion. O código relevante também será lançado em breve,

Vamos ver como funciona o DragDiffusion.

Primeiramente queremos levantar um pouco mais a cabeça do gatinho da figura abaixo, bastando o usuário arrastar o ponto vermelho até o ponto azul:

A seguir, queremos deixar a montanha um pouco mais alta, não tem problema, basta arrastar o ponto chave vermelho:

Também quero virar a cabeça da escultura, basta arrastar e soltar:

Deixe as flores da margem florescerem em uma gama mais ampla:

introdução do método

O DRAGDIFFUSION proposto neste artigo tem como objetivo otimizar variáveis latentes de difusão específicas para edição de imagens interativas baseadas em pontos.

Para atingir esse objetivo, o estudo primeiro ajusta o LoRA com base no modelo de difusão para reconstruir as imagens de entrada do usuário. Isso pode garantir que o estilo das imagens de entrada e saída permaneça consistente.

Em seguida, aplicamos a inversão DDIM (um método que explora a transformação inversa e a manipulação do espaço latente dos modelos de difusão) à imagem de entrada para obter variáveis latentes de difusão específicas da etapa.

Durante o processo de edição, aplicamos iterativamente supervisão de ação e rastreamento de ponto para otimizar as t-ésimas variáveis latentes de difusão obtidas anteriormente para "arrastar" o conteúdo do ponto processado para o local de destino. O processo de edição também aplica um termo de regularização para garantir que as regiões não mascaradas da imagem permaneçam inalteradas.

Finalmente, as variáveis latentes otimizadas do t-ésimo passo são eliminadas por DDIM para obter os resultados editados. O diagrama de visão geral é o seguinte:

Resultados experimentais

Dada uma imagem de entrada, DRAGDIFFUSION "arrasta" o conteúdo dos pontos-chave (vermelho) para os pontos-alvo correspondentes (azul). Por exemplo, na figura (1), a cabeça do cachorro está virada, na figura (7), a boca do tigre está fechada, e assim por diante.

‍

Abaixo estão mais alguns exemplos de demonstrações. Conforme mostrado na Figura (4), o pico da montanha ficará mais alto, a Figura (7) aumentará o tamanho da caneta e assim por diante.