Documento: 2307. Melhorando modelos de difusão latente para síntese de imagem de alta resolução (modelo de expansão variável latente aprimorado para síntese de imagem de alta resolução)
Links Relacionados e Interpretação
Code
: https://github.com/Stability-AI/generative-models
descrição do modelo do site oficial: https://huggingface.co/stabilityai/
【SDXL0.9 local 安装部署教程
】https://www.bilibili.com/video/BV1oV4y18791
【 Download do modelo] https://pan.baidu.com/s/1wuOibq3dYW_e_LrIgnr2Jg?pwd=0710 Código de extração: 0710
I. Visão geral
SDXL, DeepFloyd IF, DALLE-2, Bing, Midjourney v5.2
Cada coluna da esquerda para a direita corresponde a um modelo generativo ou software
1.1 Melhorar o desempenho
1. O SDXL
用户偏好效果
parece ter superado muito ** a v1.5 e a v2.1, e atémidjourney v5.1
empatado com ! !
2. SDXL é muito grande (referência 2.6B Unet) --> mais lento que o SD anterior + mais VRAM
3. Dois codificadores de texto CLIP, em vez de um vetor de ajuste em série, têm melhor alinhamento de imagem de texto (mais 4.
VAE ligeiramente melhorado
5. Lida com imagens de treinamento de baixa resolução (modelo condicionado ao tamanho da imagem), cortadas aleatoriamente (modelo condicionado ao local do corte) e imagens não quadradas (modelo condicionado ao modelo de proporção) 6. SDXL tem um estágio de refinamento opcional que é
treinado especificamente para remover pequenas quantidades de ruído (quando já existe muita informação) para imagens de alta qualidade.
de: Qinglong Saint na Estação B
1.2 Modelo específico de código aberto
SD-XL 0.9-base: O modelo básico é treinado em imagens com resolução de 1024 x 1024 em várias proporções. O modelo básico usa OpenCLIP-ViT/G e CLIP-ViT/L para codificação de texto, enquanto o modelo aprimorado usa apenas o modelo OpenCLIP.
SD-XL 0.9- refiner
(Modelo refinador): o modelo aprimorado é treinado para remover pequenos níveis de ruído em dados de alta qualidade, portanto, não é adequado como um modelo de texto para imagem; em vez disso, é aplicado apenas -imagem Modelo.
2. Introdução ao texto original
2.1 Resumo
SDXL proposto (código XL de difusão estável), um modelo de difusão latente (um modelo de difusão latente ) para 文本到图像合成
(síntese de texto para imagem). Comparado com a versão de difusão estável anterior, o SDXL utiliza uma rede de backbone UNet (um backbone UNet três vezes maior), e o aumento dos parâmetros do modelo vem principalmente de:三倍大
- Mais bloqueios de atenção
- Usando
第二个文本编码器
(um segundo codificador de texto.) para obter um contexto maior de atenção cruzada (atenção cruzada: refere-se a uma técnica para compartilhar mecanismos de atenção entre várias entradas), - Projetamos vários novos esquemas de condicionamento e treinamos o SDXL em várias proporções.
- Também introduzimos
改进模型
um modelo de refinamento para melhorar a fidelidade visual de amostras geradas por SDXL por meio de técnicas de imagem a imagem post-hoc.
Demonstramos que o SDXL apresenta um desempenho dramaticamente aprimorado em comparação com as versões anteriores de difusão estável e alcança resultados comparáveis aos geradores de imagem de caixa preta de última geração. Para conduzir pesquisas abertas e facilitar a transparência no treinamento e avaliação de modelos grandes, fornecemos acesso a pesos de modelo e código.
2.2 Estrutura do modelo
Usamos SDXL para gerar variáveis latentes iniciais de tamanho 128×128. Em seguida, aproveitamos modelos especializados de refinamento de alta resolução e aplicamos SDEdit [28] nas variáveis latentes geradas na primeira etapa, usando as mesmas dicas. SDXL e modelos aprimorados usam o mesmo autoencoder.
2108.SDEdit: Síntese e Edição de Imagens Guiadas com Equações Diferenciais Estocásticas : Síntese e Edição de Imagens Guiadas com Equações Diferenciais Estocásticas.
2.3 Comparação entre SDXL e SD1.5 / SD2.0
Componentes e parâmetros do modelo
Efeito do mesmo prompt
3. Trabalho futuro (locais a serem otimizados)
• Estágio único: Atualmente, usamos uma abordagem de dois estágios para gerar as melhores amostras do SDXL com um modelo de refinamento adicional. Isso resultou na necessidade de carregar dois modelos grandes na memória, limitando a acessibilidade e a velocidade de amostragem. O trabalho futuro deve explorar maneiras de fornecer métodos de estágio único de qualidade igual ou melhor.
• Síntese de texto: embora a escala e os codificadores de texto maiores (OpenCLIP ViT-bigG [19]) ajudem a melhorar a renderização do texto, a combinação de tokenizadores de nível de byte [52, 27] pode estender o modelo para uma escala maior [53, 40] pode melhorar ainda mais síntese de texto.
• Arquitetura: Durante a fase de exploração, tentamos brevemente arquiteturas baseadas em Transformer, como UViT [16] e DiT [33], mas não encontramos nenhum benefício imediato. No entanto, continuamos otimistas de que o dimensionamento para arquiteturas maiores dominadas por Transformer será eventualmente alcançado após cuidadosos estudos de hiperparâmetros.
• Destilação : Embora tenhamos feito uma melhoria significativa em relação ao modelo original de difusão em estado estacionário, ela tem um custo 推理成本的增加
(incluindo VRAM e velocidade de amostragem). Portanto, trabalhos futuros se concentrarão em reduzir a quantidade de computação necessária para inferência e aumentar a velocidade de amostragem, como por meio de métodos como guiado [29], baseado em conhecimento [6, 22, 24] e destilação progressiva [41, 2, 29] .
• Nosso modelo é treinado de acordo com 2006.Denoising Diffusion Probabilistic Models e precisa compensar o ruído para obter resultados esteticamente agradáveis . 离散时间公式
A estrutura EDM de Karras et al.** 2206.Elucidando o Espaço de Design de Modelos Gerativos Baseados em Difusão ** é um futuro promissor para o treinamento de modelos 候选方案
porque sua formulação em tempo contínuo permite maior flexibilidade de amostragem e não requer correção de escalonamento de ruído.
Explicação importante em inglês:
Abordagem em dois estágios: Método em dois estágios
Síntese de texto: Síntese de texto
Arquitetura: Arquitetura
Destilação: Destilação
Offset-noise: Offset noise
EDM-framework: EDM framework (fórmula de discretização isócrona)
Tempo contínuo: Tempo contínuo
Correções de programação de ruído: correção de programação de ruído