Difusión estable XL 0.9

Aunque el CEO ha estado involucrado en varias controversias antes, todavía no afecta el abordaje de Stability AI en la revista Time. Recientemente, la compañía lanzó la versión XL 0.9 de Stable Diffusion, con 3.500 millones + 6.600 millones de modelos dobles, equipados con el OpenCLIP más grande, lo que ha dado un nuevo salto en la calidad de la generación de imágenes por IA.

¡La difusión estable se ha actualizado nuevamente!

Recientemente, Stability AI lanzó la última versión de Stable Diffusion XL 0.9 (SDXL 0.9).

Comparado con el modelo anterior, esta oleada de actualizaciones supone un salto cualitativo en detalles de imagen y composición.

Especialmente en términos de parámetros, este SDXL0.9 tiene una tubería integrada de 3500 millones de modelos básicos de parámetros y 6600 millones de modelos de parámetros. Por el contrario, la versión beta utilizó solo un único modelo de 3.100 millones de parámetros.

Para generar imágenes más realistas, con mayor profundidad y mayor resolución (1024x1024), SDXL 0.9 utiliza dos modelos CLIP, incluido el modelo OpenCLIP más grande hasta la fecha (OpenCLIP ViT-G/14).

No solo eso, sino que SDXL 0.9 se ejecuta en tarjetas gráficas de consumo. Todo lo que necesita es un sistema operativo Win10/11 o Linux, 16 GB de memoria y una tarjeta gráfica de la serie NVIDIA RTX 20 con más de 8 GB de memoria de video.

¿Qué tan diferente es SDXL 0.9 de SDXL Beta?

Miremos la foto y hablemos.

Efecto medido

Echemos un vistazo a la nueva versión de SDXL 0.9, ¿cuál es la diferencia en los detalles de la imagen?

Aviso: extraterrestres deambulan por Las Vegas

SDXL Beta

SDXL 0.9

Tema: Un lobo en el Parque Nacional de Yosemite

Indicación negativa: renderizado 3D, brillante, plástico, borroso, granulado, baja resolución, animado, sobresaturado

SDXL Beta

 

SDXL 0.9

Mensaje: café en la mano

Indicación negativa: renderizado 3D, brillante, plástico, borroso, granulado, baja resolución, anime

SDXL Beta

SDXL 0.9

El funcionario dijo que la serie SDXL también proporcionará una serie de funciones más allá del mensaje de texto básico.

Estos incluyen indicaciones de imagen a imagen (introducir una imagen para obtener cambios en esa imagen), pintura interior (reconstruir partes faltantes de una imagen) y pintura exterior (construir una extensión perfecta de una imagen existente).

SDXL 0.9 se ejecuta en dos modelos CLIP, incluido uno de los modelos OpenCLIP más grandes jamás capacitados (OpenCLIP ViT-G/14), que mejora la potencia de procesamiento de 0.9 y crea capacidades de imagen realista.

El equipo SDXL pronto publicará un blog de investigación que detallará las especificaciones y las pruebas de este modelo con más detalle.

Honrada como la empresa más influyente de Time

Recientemente, Stability AI fue seleccionada por la revista Time como una de las 100 empresas más influyentes.

Para Stability AI, la revista Time lo presentó así:

Si puede describirlo con palabras, Stability AI puede convertirlo en una imagen.

Stable Diffusion, el generador de texto a imagen gratuito y de código abierto que la compañía ayudó a entrenar, cambió la comprensión del mundo sobre el potencial de la IA cuando se lanzó en agosto.

Sin embargo, Stability AI se vio envuelto rápidamente en controversias sobre cómo se entrenaron las herramientas y demandas por derechos de autor sobre los datos obtenidos de Internet.

Aún así, la compañía dice que dentro de un mes del lanzamiento de Stable Diffusion 2.0, cuatro de las 10 mejores aplicaciones de la App Store estaban detrás del modelo.

También se ha informado que el CEO de la compañía, Emad Mostaque, a menudo exagera el desempeño de la compañía. Anteriormente había afirmado que el "verdadero código abierto" de Stability AI allanó el camino para un "avance".

SDXL Beta

De hecho, la versión Beta de SDXL no se ha lanzado desde hace mucho tiempo.Se puede ver que la iteración de la versión del área de dibujo realmente está cambiando con cada día que pasa.

En ese momento, StabilityAI declaró que Stable Diffusion XL no es el nombre de la versión final y no es v3, porque la arquitectura SD-XL es muy similar a la arquitectura modelo de la serie SD-v2.

Los siguientes son algunos ejemplos de SD-XL lanzados oficialmente, se puede ver que la calidad de la imagen ya es muy buena.

 

Las mejoras de SD-XL respecto a la versión anterior son las siguientes:

  • Genere imágenes de alta calidad con indicaciones breves y descriptivas

  • Se puede generar una imagen más ajustada

  • La estructura del cuerpo humano en la imagen es más razonable.

  • En comparación con v2.1 y v1.5 (en menor medida), SD-XL produce imágenes que están más en línea con la estética del público

  • Las indicaciones negativas son opcionales

  • Los retratos generados son más realistas.

  • El texto en las imágenes es más claro.

texto legible

En las versiones de la serie v1 y v2.1 del modelo Stable Diffusion, no hay capacidad para generar texto legible en imágenes.

Si bien la información de texto generada por SD-XL no siempre es precisa, recibe un gran impulso.

Una mujer joven sostiene un cartel que dice "Difusión estable", tiene el cabello con mechas, se sienta afuera de un restaurante, ojos marrones, usa una falda, luces laterales que  aiot  http://143ai.com

mejor estructura corporal

Stable Diffusion siempre ha tenido muchos problemas para generar la anatomía humana, es demasiado común tener más piernas y menos brazos.

Por ejemplo, SD-v1.5 genera imágenes de yoga, a menudo con cuerpos humanos distorsionados.

Aunque las imágenes generadas por SD-XL no son perfectas, ha habido mejoras significativas en la postura humana.

más estético

Por ejemplo, con el mismo tema de la casa, SD-XL puede generar fotos más simétricas con mejores efectos visuales.

La SD-XL también tiene una mejora notable en las fotos de retratos.

 

Referencias:

https://stability.ai/blog/sdxl-09-stable-difusión

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/131354953
Recomendado
Clasificación