papel: https://arxiv.org/abs/2303.15433
código: https://github.com/VinAIResearch/Anti-DreamBooth.git.
Visão geral
Resumo
Os modelos de difusão de texto para imagem são nada além de uma revolução, permitindo que qualquer pessoa, mesmo sem habilidades de design, crie imagens realistas a partir de simples entradas de texto. Com poderosas ferramentas de personalização como o DreamBooth, eles podem gerar imagens de uma pessoa específica apenas aprendendo com suas poucas imagens de referência. No entanto, quando mal utilizada, uma ferramenta tão poderosa e conveniente pode produzir notícias falsas ou conteúdo perturbador direcionado a qualquer vítima individual, representando um grave impacto social negativo. Neste artigo, exploramos um sistema de defesa chamado Anti-DreamBooth contra esse uso malicioso do DreamBooth. O sistema visa adicionar perturbações sutis de ruído à imagem de cada usuário antes de publicar, a fim de interromper a qualidade de geração de qualquer modelo DreamBooth treinado nessas imagens perturbadas. Investigamos uma ampla gama de algoritmos para otimização de perturbação e os avaliamos extensivamente em dois conjuntos de dados faciais em várias versões de modelo de texto para imagem. Apesar da formulação complicada dos modelos de texto para imagem baseados em DreamBooth e Diffusion, nossos métodos defendem efetivamente os usuários do uso malicioso desses modelos. Sua eficácia resiste até mesmo a condições adversas, como incompatibilidade de modelo ou prompt/termo entre treinamento e teste. Nosso código estará disponível em https://github.com/VinAIResearch/Anti-DreamBooth.git. Sua eficácia resiste até mesmo a condições adversas, como incompatibilidade de modelo ou prompt/termo entre treinamento e teste. Nosso código estará disponível em https://github.com/VinAIResearch/Anti-DreamBooth.git. Sua eficácia resiste até mesmo a condições adversas, como incompatibilidade de modelo ou prompt/termo entre treinamento e teste. Nosso código estará disponível em https://github.com/VinAIResearch/Anti-DreamBooth.git.
Resultados
Figura 1: um invasor mal-intencionado pode coletar as imagens de um usuário para treinar um gerador personalizado de conversão de texto em imagem para fins maliciosos. Nosso sistema, chamado Anti-DreamBooth, aplica perturbações imperceptíveis nas imagens do usuário antes de liberá-las, fazendo com que qualquer gerador personalizado treinado nessas imagens deixe de produzir imagens utilizáveis, protegendo o usuário dessa ameaça.
Figura 2: Resultados qualitativos de defesa para dois indivíduos em VGGFace2 na configuração conveniente. Melhor visualizado em zoom.
Figura 3: Disrupção de imagens personalizadas geradas pelo Astria (SD v1.5 com detecção de face habilitada). Os prompts para geração de imagem incluem: (1) “retrato de pessoa sks, retrato vestindo roupas fantásticas de algodão tingidas à mão, nós de franja decorativos de penas enfeitadas com contas, rabo de cavalo colorido, flores e plantas subtropicais, rosto simétrico, intrincado, elegante, altamente detalhado, 8k , pintura digital, tendências no pinterest, harper's bazaar, arte conceitual, foco nítido, ilustração, por artgerm, Tom Bagshaw, Lawrence Alma-Tadema, greg rutkowski, alphonse Mucha”, (2) “close up of face of sks person fashion model em roupas de penas brancas, editorial oficial da balmain, iluminação dramática altamente detalhada” e (3) “retrato do príncipe sks person :: de Martine Johanna e Simon St ̊alenhag e Chie Yoshii e Casey Weldon e wlop :: ornamentado, dinâmico, particulado,
Figura 4: Disrupção de imagens personalizadas geradas pelo Astria (Protogen com Prism e detecção de face habilitada). Os prompts para geração de imagem incluem: (1) “retrato de pessoa sks, retrato vestindo roupas fantásticas de algodão tingidas à mão, nós de franja decorativos de penas enfeitadas com contas, rabo de cavalo colorido, flores e plantas subtropicais, rosto simétrico, intrincado, elegante, altamente detalhado, 8k , pintura digital, tendências no pinterest, harper's bazaar, arte conceitual, foco nítido, ilustração, por artgerm, Tom Bagshaw, Lawrence Alma-Tadema, greg rutkowski, alphonse Mucha”, (2) “close up of face of sks person fashion model em roupas de penas brancas, editorial oficial da balmain, iluminação dramática altamente detalhada” e (3) “retrato do príncipe sks person :: de Martine Johanna e Simon St ̊alenhag e Chie Yoshii e Casey Weldon e wlop :: ornamentado, dinâmico,
Figura 5: Resultados qualitativos do ASPL com duas versões diferentes de modelos SD (v1.4 e v1.5) no VGGFace2. Fornecemos em cada teste uma única imagem de entrada representativa. Os prompts de geração incluem (1) “uma foto da pessoa sks” e (2) “um retrato dslr da pessoa sks”.
Figura 6: Resultados qualitativos do ASPL com duas versões diferentes de modelos SD (v1.4 e v1.5) no CelebA-HQ. Fornecemos em cada teste uma única imagem de entrada representativa. Os prompts de geração incluem (1) “uma foto da pessoa sks” e (2) “um retrato dslr da pessoa sks”.
Figura 7: Resultados qualitativos de ASPL com diferentes orçamentos de ruído em VGGFace2.
Figura 8: Resultados qualitativos do ASPL com diferentes orçamentos de ruído no CelebA-HQ.
Figura 9: Resultados qualitativos do ASPL em configurações adversas no VGGFace2 onde a versão do modelo SD no aprendizado de perturbação não corresponde àquela usada no estágio de ajuste fino do DreamBooth (v1.4 → v2.1 e v1.4 → v2.0). Testamos com dois assuntos aleatórios e os denotamos em verde e vermelho, respectivamente.
Figura 10: Resultados qualitativos de E-ASPL em VGGFace2, onde o modelo ensemble combina 3 versões de modelos SD, incluindo v1.4, v1.5 e v2.1. Seu desempenho é validado em dois modelos DreamBooth ajustados em SD v2.1 e v2.0, respectivamente. Testamos com dois assuntos aleatórios e os denotamos em verde e vermelho, respectivamente.
Figura 11: Resultados qualitativos de ASPL em VGGFace2, onde o termo de treinamento e o prompt do modelo DreamBooth de destino são incompatíveis com os do aprendizado de perturbação. No primeiro cenário, o termo de treinamento é alterado de “sks” para “t@t”. No segundo cenário, o prompt de treinamento é substituído por “um retrato DSLR da pessoa sks” em vez de “uma foto da pessoa sks”. Aqui, S∗ é “t@t” para incompatibilidade de termo e “sks” para incompatibilidade de prompt. Testamos com dois assuntos aleatórios e os denotamos em verde e vermelho, respectivamente.
Figura 12: Resultados qualitativos de ASPL em configuração não controlada em VGGFace2. Denotamos os exemplos perturbados e os exemplos limpos vazados em vermelho e verde, respectivamente.
Conclusão
Este artigo revela uma ameaça potencial de modelos DreamBooth mal utilizados e propõe uma estrutura para combater a ameaça. Nossa solução é perturbar as imagens dos usuários com ruído adverso sutil para que qualquer modelo DreamBooth treinado nessas imagens produza imagens personalizadas ruins. A ideia-chave é induzir o modelo DreamBooth de destino a um desempenho ruim em cada etapa de remoção de ruído nas imagens originais não perturbadas. Projetamos vários algoritmos e os avaliamos extensivamente em diferentes configurações. Nossa defesa é eficaz, mesmo em condições adversas. No futuro, pretendemos melhorar a imperceptibilidade e robustez da perturbação [15, 56, 55] e conquistar as configurações não controladas.