【Papel】2307.SDXL: Melhorando modelos de difusão latente para síntese de imagem de alta resolução (código aberto, com interface do usuário)

Documento: 2307. Melhorando modelos de difusão latente para síntese de imagem de alta resolução (modelo de expansão variável latente aprimorado para síntese de imagem de alta resolução)
insira a descrição da imagem aqui

Links Relacionados e Interpretação

Code: https://github.com/Stability-AI/generative-models
descrição do modelo do site oficial: https://huggingface.co/stabilityai/
【SDXL0.9 local 安装部署教程https://www.bilibili.com/video/BV1oV4y18791
【 Download do modelo] https://pan.baidu.com/s/1wuOibq3dYW_e_LrIgnr2Jg?pwd=0710 Código de extração: 0710

I. Visão geral

SDXL, DeepFloyd IF, DALLE-2, Bing, Midjourney v5.2

Cada coluna da esquerda para a direita corresponde a um modelo generativo ou software
insira a descrição da imagem aqui

1.1 Melhorar o desempenho

1. O SDXL 用户偏好效果parece ter superado muito ** a v1.5 e a v2.1, e até midjourney v5.1empatado com ! !
2. SDXL é muito grande (referência 2.6B Unet) --> mais lento que o SD anterior + mais VRAM
3. Dois codificadores de texto CLIP, em vez de um vetor de ajuste em série, têm melhor alinhamento de imagem de texto (mais 4.
VAE ligeiramente melhorado
5. Lida com imagens de treinamento de baixa resolução (modelo condicionado ao tamanho da imagem), cortadas aleatoriamente (modelo condicionado ao local do corte) e imagens não quadradas (modelo condicionado ao modelo de proporção) 6. SDXL tem um estágio de refinamento opcional que é
treinado especificamente para remover pequenas quantidades de ruído (quando já existe muita informação) para imagens de alta qualidade.
de: Qinglong Saint na Estação B

1.2 Modelo específico de código aberto

SD-XL 0.9-base: O modelo básico é treinado em imagens com resolução de 1024 x 1024 em várias proporções. O modelo básico usa OpenCLIP-ViT/G e CLIP-ViT/L para codificação de texto, enquanto o modelo aprimorado usa apenas o modelo OpenCLIP.

SD-XL 0.9- refiner(Modelo refinador): o modelo aprimorado é treinado para remover pequenos níveis de ruído em dados de alta qualidade, portanto, não é adequado como um modelo de texto para imagem; em vez disso, é aplicado apenas -imagem Modelo.

2. Introdução ao texto original

2.1 Resumo

SDXL proposto (código XL de difusão estável), um modelo de difusão latente (um modelo de difusão latente ) para 文本到图像合成(síntese de texto para imagem). Comparado com a versão de difusão estável anterior, o SDXL utiliza uma rede de backbone UNet (um backbone UNet três vezes maior), e o aumento dos parâmetros do modelo vem principalmente de:
三倍大

  1. Mais bloqueios de atenção
  2. Usando 第二个文本编码器(um segundo codificador de texto.) para obter um contexto maior de atenção cruzada (atenção cruzada: refere-se a uma técnica para compartilhar mecanismos de atenção entre várias entradas),
  3. Projetamos vários novos esquemas de condicionamento e treinamos o SDXL em várias proporções.
  4. Também introduzimos 改进模型um modelo de refinamento para melhorar a fidelidade visual de amostras geradas por SDXL por meio de técnicas de imagem a imagem post-hoc.

Demonstramos que o SDXL apresenta um desempenho dramaticamente aprimorado em comparação com as versões anteriores de difusão estável e alcança resultados comparáveis ​​aos geradores de imagem de caixa preta de última geração. Para conduzir pesquisas abertas e facilitar a transparência no treinamento e avaliação de modelos grandes, fornecemos acesso a pesos de modelo e código.

2.2 Estrutura do modelo

insira a descrição da imagem aqui

Usamos SDXL para gerar variáveis ​​latentes iniciais de tamanho 128×128. Em seguida, aproveitamos modelos especializados de refinamento de alta resolução e aplicamos SDEdit [28] nas variáveis ​​latentes geradas na primeira etapa, usando as mesmas dicas. SDXL e modelos aprimorados usam o mesmo autoencoder.

2108.SDEdit: Síntese e Edição de Imagens Guiadas com Equações Diferenciais Estocásticas : Síntese e Edição de Imagens Guiadas com Equações Diferenciais Estocásticas.

2.3 Comparação entre SDXL e SD1.5 / SD2.0

Componentes e parâmetros do modelo
insira a descrição da imagem aqui
Efeito do mesmo prompt
insira a descrição da imagem aqui

3. Trabalho futuro (locais a serem otimizados)

• Estágio único: Atualmente, usamos uma abordagem de dois estágios para gerar as melhores amostras do SDXL com um modelo de refinamento adicional. Isso resultou na necessidade de carregar dois modelos grandes na memória, limitando a acessibilidade e a velocidade de amostragem. O trabalho futuro deve explorar maneiras de fornecer métodos de estágio único de qualidade igual ou melhor.

• Síntese de texto: embora a escala e os codificadores de texto maiores (OpenCLIP ViT-bigG [19]) ajudem a melhorar a renderização do texto, a combinação de tokenizadores de nível de byte [52, 27] pode estender o modelo para uma escala maior [53, 40] pode melhorar ainda mais síntese de texto.

• Arquitetura: Durante a fase de exploração, tentamos brevemente arquiteturas baseadas em Transformer, como UViT [16] e DiT [33], mas não encontramos nenhum benefício imediato. No entanto, continuamos otimistas de que o dimensionamento para arquiteturas maiores dominadas por Transformer será eventualmente alcançado após cuidadosos estudos de hiperparâmetros.

Destilação : Embora tenhamos feito uma melhoria significativa em relação ao modelo original de difusão em estado estacionário, ela tem um custo 推理成本的增加(incluindo VRAM e velocidade de amostragem). Portanto, trabalhos futuros se concentrarão em reduzir a quantidade de computação necessária para inferência e aumentar a velocidade de amostragem, como por meio de métodos como guiado [29], baseado em conhecimento [6, 22, 24] e destilação progressiva [41, 2, 29] .

• Nosso modelo é treinado de acordo com 2006.Denoising Diffusion Probabilistic Models e precisa compensar o ruído para obter resultados esteticamente agradáveis . 离散时间公式A estrutura EDM de Karras et al.** 2206.Elucidando o Espaço de Design de Modelos Gerativos Baseados em Difusão ** é um futuro promissor para o treinamento de modelos 候选方案porque sua formulação em tempo contínuo permite maior flexibilidade de amostragem e não requer correção de escalonamento de ruído.

Explicação importante em inglês:

Abordagem em dois estágios: Método em dois estágios
Síntese de texto: Síntese de texto
Arquitetura: Arquitetura
Destilação: Destilação
Offset-noise: Offset noise
EDM-framework: EDM framework (fórmula de discretização isócrona)
Tempo contínuo: Tempo contínuo
Correções de programação de ruído: correção de programação de ruído

Acho que você gosta

Origin blog.csdn.net/imwaters/article/details/131633950
Recomendado
Clasificación