Generación de imágenes de IA Parámetros de difusión estable y detalles de uso

        Para la configuración y el funcionamiento del entorno de difusión estable, consulte la publicación de blog anterior "Configuración y funcionamiento del entorno de difusión estable de generación de imágenes de IA", la dirección es "https://blog.csdn.net/suiyingy/article/details/ 128896426". Después de ejecutarse con éxito, el navegador web mostrará la página que incluye principalmente ocho partes, incluidas txt2img, img2img, Extras, PNG Info, Checkpoint Merger, Train, Settings y Extensions, que se presentarán respectivamente a continuación. Además, para actualizaciones específicas de esta columna, puede seguir la cuenta oficial debajo del artículo o seguir esta columna. Todos los artículos relacionados se actualizarán en "Python AIGC Large Model Training and Reasoning from Scratch" , la dirección es "https://blog.csdn.net/suiyingy/article/details/130169592".

 Figura 1 Representaciones de generación de difusión estable

1 txt2img

        txt2img se refiere al gráfico de Wensheng, que genera imágenes basadas en descripciones de texto, y su página se muestra en la siguiente figura.

 Figura 2 txt2img

        Un ejemplo de una configuración completa es el siguiente:

        Aviso:  vestido de gala de coral, ((camisa de botones verde cola)), (parte superior del cuerpo), cabello largo, 1 chica, alta, flaca, fotorrealista, obra maestra, alta resolución, 8k, concepto de personaje, profundidad de campo, pupilas perfectas, sonrisas perfectas, borroso fondo,cara en forma de corazón, aire libre,luz lateral,mañana,tacones altos,ropa detallada,ultra detalles,pendiente,((rostro completo))

        Indicación negativa:  baja resolución, mala anatomía, malas manos, texto, error, falta de dedos, dígito extra, menos dígitos, recortado, peor calidad, baja calidad, calidad normal, artefactos jpeg, firma, marca de agua, nombre de usuario, borroso, brazos faltantes, largo cuello, jorobado, extremidad faltante, demasiados dedos, mutado, mal dibujado, fuera de marco, malas manos, ojos poco claros, mal dibujado, cara clonada, mala cara, (peor calidad: 2), (baja calidad: 2), ( calidad normal:2), baja resolución, calidad normal, ((monocromo)), ((escala de grises)),ng_deepnegative_v1_75t,pezones,((media cara)),((media cabeza)),((sin cara)),(( sin cabeza))

        Pasos: 30, Muestreador: Euler, Escala CFG: 9, Restaurar caras , Tamaño: 512x512 , Modelo hash: dcd690123c, Modelo: v2-1_768-ema-pruned.safetensors,  Semilla: 4171216357,  Script: X/Y/Z plot, Tipo X: Pasos, Valores X: “10,20,30”, Tipo Y: Muestreador, Valores Y: “Euler a, Euler”。

1.1 Punto de control de difusión estable

        Los puntos de control de difusión estable se utilizan para seleccionar el modelo cargado actualmente. Para configurar y cargar el modelo, consulte la publicación de blog anterior "Configuración y operación del entorno de difusión estable de generación de imágenes AI", la dirección es "https://blog.csdn.net /suiyingy/article/details/128896426". Los usuarios pueden descargar archivos de modelos con el sufijo .safetensors del sitio web Hugging Face según sea necesario.

        Cabe señalar aquí que el estilo de las imágenes generadas por diferentes modelos también será diferente, como el estilo cómico o el estilo realista. Además del modelo oficial de Stable Diffusion, el programa también admite modelos como chilloutmix_Ni, any-v4.5-pruned, dreamshaper_33, protogenV22Anime_22, artErosAerosATribute_aerosNovae y cheeseDaddys_35.

        Hay muchos trabajos con mejores efectos de generación en Internet.Si los resultados obtenidos por los usuarios bajo el mismo indicador son bastante diferentes, es probable que se deba al uso de diferentes modelos.

1.2 Aviso

        Prompt es una descripción textual de la imagen que desea generar. Generalmente, la descripción en inglés puede obtener mejores resultados de generación. Los resultados de diferentes descripciones de texto son completamente diferentes y, la mayoría de las veces, los usuarios incluso necesitan concentrarse en escribir un aviso adecuado. Por otro lado, si el modelo no puede entender bien la descripción del aviso establecida por el usuario, los resultados generados por el modelo se desviarán seriamente de las expectativas, de modo que algunos usuarios piensen que hay algún problema con el modelo mismo o que el modelo no es efectivo.

        Si no hay requisitos adicionales para las imágenes generadas por el modelo, solo necesitamos ingresar una descripción simple de la imagen en el indicador, como "diseñar un logotipo para el subprograma AIGC RdFast". Sin embargo, si queremos obtener mejores imágenes generadas, el aviso debe seguir ciertas reglas de diseño.

        Las siguientes reglas de diseño se presentan en "Cómo configurar y usar la guía de pintura de IA webui de difusión estable (SD webui)", la dirección es "https://www.tjsky.net/tutorial/488".

        (1) Separación: entre diferentes etiquetas de palabras clave, debe usar comas en inglés para separarlas. Hay espacios o saltos de línea antes y después de las comas, que no tienen ningún efecto. Por ejemplo: 1 niña, loli, cabello largo, coletas bajas (1 niña, loli, cabello largo, coletas bajas).

        (2) Mezcla: WebUi usa | para separar varias palabras clave para lograr mezclar varios elementos. Tenga en cuenta que mezclar es mezclar en la misma proporción y mezclar al mismo tiempo. Ejemplo: 1 niña, pelo rojo|azul, pelo largo (1 niña, pelo rojo y azul mezclado, pelo largo)

        (3) Mejora/debilitamiento: hay dos formas de escribir

        El primer tipo (palabra indicadora: valor de peso): el valor varía de 0,1 a 100, y el estado predeterminado es 1. Si es inferior a 1, se debilitará, y si es superior a 1, se fortalecerá . Por ejemplo: (loli: 1,21), (una niña: 1,21), (orejas de gato: 1,1), (horquilla de flor: 0,9).

        Para el segundo tipo (((palabra indicadora))), cada conjunto de corchetes () se fortalece 1,1 veces, y cada conjunto de [] se debilita 1,1 veces. Es decir, es 1,1*1,1=1,21 veces para dos capas, 1,331 veces para tres capas y 1,4641 veces para cuatro capas. Por ejemplo: ((loli)),((una niña)),(orejas de gato),[horquilla de flor] son ​​equivalentes a la primera forma de escritura.

        (4) Cambio de gradiente: para una comprensión relativamente simple, primero se genera de acuerdo con una determinada palabra clave y luego cambia en una determinada dirección en función de esto. [palabra clave 1: palabra clave 2: número], el número mayor que 1 se interpreta como la palabra clave 1 antes del paso X y se convierte en la palabra clave 2 después del paso X, y el número menor que 1 se entiende antes del X por ciento del número total de pasos como Palabra clave 1 y luego se convierte en Palabra clave 2. Por ejemplo: una niña con cabello muy largo [blanco: amarillo: 16] es equivalente a "iniciar una niña con cabello blanco muy largo", después de 16 pasos "una niña con cabello amarillo muy largo". "una niña con cabello muy largo [blanco: amarillo: 0.5]" es equivalente a "una niña con cabello blanco muy largo al principio" y "una niña con cabello amarillo muy largo" después de pasos del 50%.

        (5) Alternativo: use palabras clave a su vez. Por ejemplo: [vaca|caballo] en un campo, esto es una mezcla de una vaca y un caballo. Si escribe más largo, como [vaca|caballo|gato|perro] en un campo, primero trabajará duro como un vaca y luego como un caballo Trabaja duro, trabaja más duro por los gatos, trabaja más duro por los perros y trabaja más duro por los caballos.

        Ejemplo rápido:

coral full dress,((collagreen botton shirt)),(upper body),long hair,1gir,tall,skinny,photorealistic,masterpiece,highres,8k,character concept,depth of field,perfect pupils,perfect smiles,blurry background,heart shape face, outdoors,,side light, morning,high heel,detailed clothing,ultra details,earring,((full face))

1.3 Indicación negativa

        Aviso describe las características de la imagen que el usuario quiere generar, mientras que Aviso negativo se refiere a las características que la imagen generada no quiere contener, como imágenes de baja calidad. El enfoque general de difusión estable es:

        (1) Elimine el ruido de la imagen para que se parezca más a sus palabras clave.

        (2) Elimine el ruido de la imagen para que se parezca más a su señal inversa (incondicional).

        (3) Observe la diferencia entre estos dos y utilícelo para generar un conjunto de cambios en la imagen ruidosa.

        (4) Trate de mover el resultado final hacia el primero y alejándolo del segundo.

        Ejemplo de aviso negativo:

lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,missing arms,long neck,Humpbacked,missing limb,too many fingers,mutated,poorly drawn,out of frame,bad hands,unclear eyes,poorly drawn,cloned face,bad face,(worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)),ng_deepnegative_v1_75t,nipples,((half face)),(( half head)),((no face)),((no head))

1.4 Método de muestreo

        El método de muestreo está directamente relacionado con el principio de funcionamiento del modelo de difusión estable, y esta columna presentará el principio en detalle más adelante. El método de muestreo afecta principalmente la preferencia de tiempo y estilo de generación de imágenes. El sitio web "https://cj.sina.com.cn/articles/view/1823348853/6cae1875020018im7" tiene resultados experimentales detallados.

Los métodos de muestreo comúnmente utilizados son Euler a, Euler, DDIM, LMS, PLMS y DPM2. En general, se puede utilizar el método de muestreo predeterminado.

1.5 Pasos de muestreo

        El paso de muestreo se establece en 20 de forma predeterminada. Si los detalles de la imagen generada no cumplen con los requisitos, los pasos de muestreo se pueden aumentar adecuadamente, pero el tiempo de generación también aumentará en consecuencia. La mayoría de los samplers no tienen mucho sentido más allá de los 50 pasos.

1.6 Restaurar caras

        Reparación facial, haciendo que la cara se parezca más a una cara humana real. Los modelos para restauración facial general incluyen CodeFormer y GFPGAN.

1.7 Mosaico

        Genere patrones de imagen en mosaico, el efecto directo es que las partes superior e inferior de la imagen y las partes izquierda y derecha se pueden empalmar, de forma similar a los patrones de mosaico.

Figura 3 Imagen en mosaico

1.8 Contrataciones. Arreglar

        txt2img produce imágenes muy extrañas a altas resoluciones (1024X1024). Y este complemento permite que AI renderice parcialmente su imagen a una resolución más baja, luego mejore la imagen a alta resolución a través del algoritmo y luego agregue detalles a alta resolución.

1.9 Ancho/Alto

        El ancho y alta resolución de la imagen, es decir, el tamaño de la imagen. Cuanto mayor sea el tamaño, más memoria se requiere. Debido a que los modelos comunes se entrenan básicamente sobre la base de 512×512 y 768×768, si la resolución es demasiado alta, la calidad de la imagen se deteriorará a medida que aumente la resolución.

1.10 Escala CFG

        Qué tan cerca la imagen coincide con el contenido del aviso. Aumentar este valor dará como resultado una imagen más cercana a su descripción, pero demasiado alto hará que la imagen se sobresature, y demasiado alto degradará la calidad de la imagen hasta cierto punto. El paso de muestreo se puede aumentar adecuadamente para compensar la degradación de la calidad de la imagen. Generalmente, es mejor estar entre 5 y 15, y 7, 9 y 12 son tres valores de configuración comunes.

        CFG bajo: la imagen está borrosa, se ve borrosa, el contraste de color es débil y la composición es relativamente pobre.

        Alto CFG: el contraste de la imagen es muy fuerte, el color está muy saturado, incluso sobresaturado, y el color y la estructura están desequilibrados.

1.11 Recuento de lotes/Tamaño de lote

        Estos dos parámetros controlan esencialmente el número de imágenes de salida. El recuento de lotes se genera secuencialmente, mientras que el tamaño de lote se genera en paralelo, por lo que este último se genera más rápido, pero ocupa más memoria de video.

1.12 Semilla

        El valor predeterminado de Seed es -1, y las imágenes generadas cada vez son bastante diferentes, es decir, se generan aleatoriamente. Después de establecer la semilla en un valor fijo, las imágenes generadas cada vez estarán más cerca, por lo que puede ajustar el aviso para ajustar los resultados generados.

1.13 Guión

        Script es equivalente a establecer múltiples condiciones al mismo tiempo, lo cual es conveniente para comparar los resultados generados por múltiples condiciones. Por ejemplo, Guión: Gráfico X/Y/Z, Tipo X: Pasos, Valores X: “10,20,30”, Tipo Y: Muestreador, Valores Y: “Euler a, Euler”, esta configuración incluye tres tiempos de muestreo Y dos métodos de muestreo, por lo que se generarán 6 imágenes, como se muestra en la siguiente figura. Para métodos de uso específicos, consulte "https://zhuanlan.zhihu.com/p/600821549".

Figura 4 Configuración de comparación de múltiples condiciones

 Figura 5 Comparación de resultados de múltiples condiciones

1.14 Estilos

        Hay un pequeño ícono de "Guardar estilo" debajo del botón "Generar", que puede guardar el contenido de solicitud actual como un estilo, lo cual es conveniente para cargar y reutilizar posteriormente a través de Estilos.

2 Referencias

        Este artículo hace referencia al contenido de los siguientes sitios web y agradece a los autores relevantes por su análisis detallado.

        (1) "Cómo configurar y usar la guía de pintura de IA webui de difusión estable (SD webui)", "https://www.tjsky.net/tutorial/488", la mayor parte del contenido de este artículo proviene de aquí.

        (2) "Stable-diffusion-webui prompt Gramática Explicación detallada", "https://zhuanlan.zhihu.com/p/600821549".

        (3) "Método de muestreo del modelo de difusión: visualización del método de muestreo en difusión estable a partir del efecto", "https://cj.sina.com.cn/articles/view/1823348853/6cae1875020018im7".

        (4) "Descripción de cada muestra de difusión estable", "http://www.codeforest.cn/article/3578".

        (5) "[Enfermedades Difíciles de Difusión Estable y Misceláneas] CFG, Método de Muestreo, Restauración HD, ControlNet", "https://zhuanlan.zhihu.com/p/610346261".

        (6) "Mirando el método de muestreo en Stable Diffusion WebUI desde que consume mucho tiempo", "https://post.smzdm.com/p/akk8zv5r/".

3 otras partes

        Img2img, Extras, PNG Info, Checkpoint Merger, Train, Settings y Extensions se presentarán en la próxima publicación del blog. Para actualizaciones específicas de esta columna, puede seguir la cuenta oficial debajo del artículo o seguir esta columna. Todos los artículos relacionados se actualizarán en "Python AIGC Large Model Training and Reasoning from Scratch" , la dirección es "https://blog.csdn.net/suiyingy/article/details/130169592".

Supongo que te gusta

Origin blog.csdn.net/suiyingy/article/details/130008913
Recomendado
Clasificación