Difusión estable XL 1.0

era 0.9 antes

Se estrena Stable Diffusion XL 1.0, brindándole una experiencia de color diferente.

En la era AIGC abierta por los grandes modelos, Stable Diffusion, un modelo de generación de texto a imagen creado por la startup estrella de IA Stability AI, se ha vuelto popular en todo el mundo.

Si bien no hay escasez de modelos generativos de texto a imagen, Stable Diffusion es el modelo de código abierto más popular. Los desarrolladores de todos los ámbitos de la vida también están creando innovaciones secundarias basadas en el modelo Stable Diffusion, lanzando varias y sofisticadas aplicaciones AIGC.

Justo ahora, Stability AI lanzó oficialmente Stable Diffusion XL (SDXL) 1.0. El modelo de generación de texto a imagen ha completado otra iteración importante en el proceso de evolución.

Este es el último modelo de imagen insignia de Stability AI y el mejor modelo de código abierto en el campo actual de generación de imágenes.

Stability AI lanzó SDXL 0.9 en junio solo para uso de investigación, antes del lanzamiento de SDXL 1.0. Pero a partir de hoy, SDXL 1.0 será de código abierto para los desarrolladores a través de la API de Stability AI, y la gente común también podrá acceder a él a través de las aplicaciones de consumo Clipdrop y DreamStudio.

¿Cómo experimentar SDXL 1.0 inmediatamente? Actualmente hay varios canales:

  • Clipdrop: https://clipdrop.co/stable-diffusion

  • DreamStudio: https://dreamstudio.ai/generar

  • Plataforma de IA de estabilidad: https://platform.stability.ai/

  • Github:https://github.com/Stability-AI/generative-models

Además, debido a la estrecha cooperación con Amazon, SDXL 1.0 ha aterrizado en el servicio de alojamiento modelo básico de Amazon Cloud Technology, Amazon Bedrock, y también aterrizará en Amazon SageMaker JumpStart.

SDXL 1.0, ¿qué ha evolucionado?

1. Generar obras con conceptos y estilos más desafiantes

SDXL 1.0 es capaz de producir imágenes de alta calidad en prácticamente cualquier estilo artístico y es el mejor modelo de código abierto para el fotorrealismo. Los usuarios pueden apuntar sin ninguna "inspiración" específica, asegurando absoluta libertad de estilo y generando imágenes con características propias. SDXL 1.0 está bien ajustado para brindar viveza y precisión de color, con mejor contraste, luces y sombras que la generación anterior, todo con una resolución nativa de 1024x1024.

Además, SDXL 1.0 puede generar conceptos que los modelos de imágenes son difíciles de representar, como la disposición de las manos, el texto y el espacio.

Fuente: sitio web oficial de Stability AI

2. El lenguaje es más conciso e inteligente

SDXL 1.0 crea imágenes complejas, detalladas y hermosas con solo unas pocas palabras. Los usuarios ya no necesitan retocar con palabras sofisticadas para obtener las imágenes de alta calidad que desean.

Incluso se puede distinguir entre "La Plaza Roja" (Plaza Roja, una famosa atracción) y "plaza roja".

3. Ajustes y controles avanzados

Con SDXL 1.0, ajustar modelos basados ​​en datos personalizados es más fácil que nunca. Se pueden generar puntos de control o LoRA personalizados, lo que reduce la necesidad de procesamiento de datos. Stability AI está aprovechando T2I / ControlNet para SDXL para construir la próxima generación de controles de estructura, estilo y composición específicos de la misión. Estas funciones se encuentran actualmente en versión preliminar beta, así que manténgase atento a las actualizaciones precisas. Los controles de gráficos en SDXL 1.0 también estarán disponibles próximamente.

Desde el lanzamiento de la versión beta de SDXL el 13 de abril, los usuarios de ClipDrop han utilizado el modelo para generar más de 35 millones de imágenes, mientras que la comunidad Discord de Stability AI genera un promedio de 20 000 imágenes por día.

Vea lo que hacen los usuarios con SDXL 1.0.

Twitter: @pratzlowcode

A juzgar por el efecto de generación de imágenes de los internautas, SDXL 1.0 tiene una comprensión más precisa de la luz, y el efecto de luz y el contraste de color son más realistas.

Twitter: @foxtrotfrog

Se puede ver que en el uso del color, SDXL 1.0 es más audaz, y los detalles de luces y sombras aún están en línea cuando la saturación es alta.

Twitter: @ai_for_success

En esta imagen, puedes ver que la profundidad de campo es más adecuada, el sujeto es prominente, la transición entre colores e incluso el realismo son excelentes.

Los internautas hicieron una tabla de comparación entre SDXL 0.9 y SDXL 1.0, la imagen generada por SDXL 0.9 está a la izquierda y la imagen generada por SDXL 1.0 está a la derecha. Puede ver claramente la diferencia en el uso del color entre los dos. El color de SDXL 1.0 es más rico y realista, y el rendimiento del efecto de luz también es mejor. ¿Qué software  es?  http://143ai.com

Algunos internautas también usaron el aviso anterior en Midjourney en SDXL 1.0, y lamentaron en los comentarios que su efecto no es peor que el de Midjourney, e incluso algunos inesperadamente excelentes.

Detalles de SDXL 1.0: modelos base y refinador

Stability AI probó SDXL 1.0 contra varios modelos: las personas prefieren las imágenes generadas por SDXL 1.0 en comparación con los modelos Stable Diffusion1.5/2.1, SDXL 0.9, etc.

SDXL 1.0 es también uno de los modelos de imagen abierta más ricos en parámetros, construido sobre una nueva arquitectura innovadora que consta de un modelo base de 3500 millones de parámetros y un modelo de refinamiento de 6600 millones de parámetros.

El modelo completo incluye una tubería de mezcla experta para la difusión latente: en un primer paso, el modelo base genera variables latentes (ruidosas), que luego se procesan con un modelo de refinamiento dedicado al paso final de eliminación de ruido.

El modelo base también está disponible como módulo independiente. Un modelo refinado agrega colores más precisos, mayor contraste y detalles más finos a la salida del modelo base.

Esta arquitectura de dos etapas garantiza una sólida generación de imágenes sin comprometer la velocidad ni requerir recursos computacionales excesivos. SDXL 1.0 se ejecuta de manera eficiente en GPU de nivel de consumidor con 8 GB de VRAM o en instancias de nube listas para usar.

  • Dirección en papel: https://arxiv.org/pdf/2307.01952.pdf

  • Dirección del código: https://github.com/Stability-AI/generative-models

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/131964943
Recomendado
Clasificación