Lançado modelo de código aberto de difusão estável SDXL 1.0

Em relação ao modelo SDXL, já escrevi dois artigos:

6c674cf08280bd17368749310506481a.png

Quatro meses depois, a equipe de Stability AI finalmente lançou o SDXL 1.0. Claro, várias versões intermediárias foram lançadas no meio, nomeadamente SDXL beta e SDXL 0.9. Comparada com a versão somente para pesquisa do SDXL 0.9, esta versão completa é uma melhoria significativa e é atualmente o melhor modelo de geração de imagem aberta. A partir de dados experimentais coletados no Discord, as pessoas preferem imagens geradas pelo SDXL 1.0 em comparação com outros modelos abertos.

d54a0c50a076853ce8b41d6c7cf64047.png

SDXL pode produzir imagens de alta qualidade em quase todos os estilos artísticos e é particularmente bom em fotorrealismo. SDXL 1.0 é especialmente ajustado para cores vivas e precisas, com melhor contraste e sombreamento do que os modelos anteriores de Stable Diffusion 1.xe 2.x.

Além disso, SDXL pode gerar conceitos que os modelos de imagem têm dificuldade em renderizar, como mãos e texto ou composições organizadas espacialmente (por exemplo, uma mulher ao fundo perseguindo um cachorro em primeiro plano).

a220913b5cf030b0aa47ee424861110f.png

SDXL pode criar imagens complexas, detalhadas e bonitas com apenas algumas palavras. Os usuários não precisam mais invocar qualificadores como “obra-prima” para obter imagens de alta qualidade. Além disso, SDXL entende a diferença entre conceitos como “quadrado vermelho” (o lugar famoso) e “quadrado vermelho” (a forma).

2dc53b9371db99badc46bc76e700216f.png

SDXL 1.0 é o maior modelo de imagem aberta, mas não possui altos requisitos de memória de vídeo e pode funcionar normalmente em GPUs com 8 GB de memória de vídeo, cobrindo a maioria das placas gráficas de consumo e serviços de nuvem de GPU.

Para obter resultados de saída mais estáveis, geralmente usamos ControlNet para orientar a difusão estável para gerar imagens de acordo com as ideias criativas do criador, adicionando condições de controle adicionais, melhorando assim a controlabilidade e a precisão da geração de imagens de IA. Atualmente não há modelo ControlNet para SDXL 1.0. A boa notícia é que ajustar modelos para dados personalizados do SDXL 1.0 está mais fácil do que nunca. A equipe de Stability AI está construindo a próxima geração de controles de estrutura, estilo e composição específicos de tarefas com T2I/ControlNet especificamente para SDXL, e esses recursos estão atualmente em versão beta.

ee7cbd8ed6b8642154a84470f43a636d.png

681b06d4fcf64c3f53697f1cb34d70f9.png

Usar SDXL

Existem várias maneiras de começar a usar o SDXL 1.0:

  • SDXL 1.0 está disponível no Clipdrop. URL: https://clipdrop.co/stable-diffusion

  • Os pesos e o código-fonte associado para SDXL 1.0 são publicados na página Stability AI GitHub. URL: https://github.com/Stability-AI/generative-models

  • DreamStudio. URL: http://dreamstudio.ai/

Se você deseja implantar localmente, é recomendado usar Stable Diffusion WebUI (https://github.com/AUTOMATIC1111/stable-diffusion-webui). Em relação à implantação do WebUI, existem muitas informações na Internet, por isso não entrarei em detalhes aqui.

Acesse https://huggingface.co/stabilityai, você pode ver que o modelo SDXL 1.0 já está disponível.

d721704a1c69298da0c1723ea7883807.png

Clique em Arquivos e versões e baixe o arquivo sd_xl_base_1.0.safetensors.

057dcf316e288f388bb58000af74d9da.png

Coloque o arquivo do modelo baixado no diretório models/Stable-diffusion do WebUI. Basta atualizar e selecionar o novo modelo na interface web.

3b8ae89e573b0be9e5c1a0615ceb3e39.png

acordo

Algumas pessoas podem se preocupar com questões de direitos autorais, não se preocupe com isso, SDXL 1.0 é lançado sob a licença CreativeML OpenRAIL++-M. Para termos detalhados, consulte:

https://github.com/Stability-AI/generative-models/blob/main/model_licenses/LICENSE-SDXL1.0

Claro, esta licença é muito difícil de ler. Você pode ver a interpretação em Zhihu:

https://zhuanlan.zhihu.com/p/626686691

Artigos relacionados à lei são difíceis de ler. Aqui está o ponto chave: disponível comercialmente, copiável, utilizável e redistribuído .

Acho que você gosta

Origin blog.csdn.net/mogoweb/article/details/131989800
Recomendado
Clasificación