Stable Diffusion es una tecnología basada en redes neuronales que genera imágenes correspondientes ingresando palabras clave. Para obtener una salida de imagen de alta calidad, debe elegir las palabras clave apropiadas y asegurarse de que estimulen la imaginación y la creatividad del modelo.
Aquí hay algunas sugerencias para escribir palabras clave:
- Determine el tema: Primero, determine el tema o contenido de la imagen que desea generar. Por ejemplo, puede elegir paisajes naturales, arte abstracto, escenas de ciencia ficción y más. Aclarar el tema ayuda a guiar al modelo para generar contenido relacionado con el tema.
- Use un lenguaje claro y conciso: Trate de describir sus necesidades en un lenguaje simple y claro. Evite un vocabulario demasiado complejo o vago que pueda causar confusión.
- Proporcione suficientes detalles: Proporcione suficientes detalles al modelo para que pueda comprender con precisión sus requisitos. Por ejemplo, si desea generar una imagen de un cielo estrellado por la noche, puede describir el número, el color, la distribución, etc. de las estrellas.
- Aproveche los adjetivos y adverbios: el uso de adjetivos y adverbios puede ayudar al modelo a comprender sus pensamientos de manera más específica. Por ejemplo, podrías describir "estrella brillante", "estrella fugaz centelleante", etc.
- Evite las palabras restrictivas: intente evitar el uso de palabras restrictivas, como "debe", "solo puede", etc. Esto puede limitar la imaginación y la creatividad del modelo. En su lugar, intente utilizar preguntas abiertas como "Por favor, imagine...".
- Use ejemplos: para ayudar al modelo a comprender mejor sus necesidades, puede proporcionar algunos ejemplos reales o imágenes de muestra como referencias. Esto facilita que el modelo capte puntos clave y genere imágenes que coincidan con las expectativas.
texto a imagen
Primero comprenda los parámetros básicos proporcionados por la aplicación web SD-WebUI a través de los [Conceptos básicos del ajuste de parámetros] anteriores.
Las siguientes fuentes de contenido están organizadas por la red.
como escribir avisos
Esta es una guía general, el contenido es básicamente general, puede haber excepciones, lea los capítulos correspondientes para comprender las características de las diferentes aplicaciones.
CONSEJO
Las palabras indicadoras son indicaciones en lugar de una base de juicio. Por ejemplo, cuando ingresa palabras de juicio de calidad, en realidad está limitando el alcance de los datos, en lugar de "requerir" IA para producir una buena imagen.
etiqueta de palabra
Para modelos entrenados específicamente en palabras de etiquetas, se recomienda usar palabras separadas por comas como indicaciones.
Las palabras comúnmente vistas, por ejemplo, son etiquetas conocidas (como Danbooru) que se pueden encontrar en el sitio de origen del conjunto de datos. El estilo de las palabras debe coincidir con el estilo general de la imagen, de lo contrario habrá estilos mezclados o ruido.
Evite los errores tipográficos. Un modelo de PNL podría dividir las palabras mal escritas en letras para su procesamiento.
lenguaje natural
Para modelos entrenados en lenguaje natural, se recomienda usar oraciones que describan objetos como palabras clave.
Según el conjunto de datos utilizado para el entrenamiento, se pueden usar símbolos especiales en inglés, japonés o algo de chino. El inglés es más efectivo en la mayoría de los casos.
Evite with
conectores como , o sintaxis compleja, la mayoría de las veces el modelo NLP solo hará lo mínimo.
Evite los acentos (como é y è) y las diéresis alemanas (como ä y ö), que pueden no estar asignadas a la semántica correcta.
No se recomienda aplicar plantillas listas para usar al azar, especialmente plantillas que no pueden ser entendidas por humanos.
Kaomoji
Para los modelos que usan datos de Danbooru, puede usar emoticonos para controlar la expresión del gráfico hasta cierto punto.
Por ejemplo:
:-)
Sonriendo :-(
Enfadado ;-)
Guiñando el ojo Feliz :-D
Sacando :-P
la lengua :-C
Triste Sorprendido :-O
Boca abierta :-/
Dudoso
espacio
Una pequeña cantidad de espacios antes y después de la coma no afecta el efecto real.
Los espacios adicionales al principio y al final simplemente se descartan. Los espacios adicionales entre palabras también se descartan.
signos de puntuación
\0
Separar las palabras clave con comas, puntos o incluso caracteres vacíos ( ) puede mejorar la calidad de la imagen. No está claro qué tipo de puntuación o qué combinación funciona mejor. En caso de duda, simplemente hágalo de una manera que haga que el mensaje sea más fácil de leer.
Para algunos modelos, se recomienda _
convertir los guiones bajos ( ) en espacios.
palabras de estilo artistico
Puede crear imágenes con efectos especiales o un estilo específico de pintura especificando palabras clave de estilo.
movimiento y postura
Elija señales que solo sean relevantes para algunas poses si no son muy exigentes.
Pose aquí se refiere a la configuración física de algo: la posición y rotación de un sujeto de imagen en relación con la cámara, los ángulos de las articulaciones humano/robot, la forma en que se comprime un bloque de gelatina, etc. Cuanta menos variación haya en las cosas que intenta especificar, más fácil será para el modelo aprender.
Debido a que el movimiento, por definición, implica grandes cambios en la postura del sujeto, las señales asociadas con el movimiento a menudo resultan en distorsiones del cuerpo, como extremidades repetidas. Además, debido a que las extremidades humanas, especialmente las manos y los pies humanos, tienen muchas articulaciones, pueden asumir muchas poses diferentes y complejas. Esto hace que sus visualizaciones sean particularmente difíciles de aprender, tanto para humanos como para redes neuronales.
En resumen: las buenas imágenes de humanos de pie/sentados son fáciles, las buenas imágenes de humanos saltando/corriendo son difíciles.
cómo escribir
plantilla
Piense en qué dibujar primero, como el tema, la apariencia, la emoción, la ropa, la pose, el fondo, etc., y luego consulte la tabla de etiquetas del conjunto de datos (si corresponde, como Danbooru, Pixiv, etc.).
Luego, agrupe las palabras clave similares deseadas, usando la mitad del ancho en inglés ,
como separadores, y organícelas en orden de la más importante a la menos importante.
Un ejemplo de plantilla es el siguiente:
(quality), (subject)(style), (action/scene), (artist), (filters)
(quality)
Representa la calidad de la imagen, como el usolow res
combinadosticker
para "usar" más conjuntos de datos y el uso1girl
combinadohigh quality
para obtener imágenes de alta calidad.(subject)
Representar el tema de la pantalla, anclar el contenido de la pantalla, es una parte fundamental de cualquier señal.(style)
es el estilo de pantalla, opcional.(action/scene)
Representa una acción/escena, describiendo qué hizo el sujeto y dónde.(artist)
Representa el nombre del artista o el nombre de la productora.(filters)
Representa algunos detalles, complementados. Se pueden usar artistas, estudios, términos de cámara, nombres de personajes, estilos, efectos especiales y más.
capitalización
El tokenizador de CLIP pone en minúsculas todas las palabras antes de tokenizar. Otros modelos, como BERT y T5, tratan las palabras en mayúsculas de forma diferente a las palabras sin mayúsculas.
Pero evite involucrar una sintaxis especial en caso de que se interprete como otra semántica, p AND
.
orden léxico
Parece que los VAE usan un método estadístico llamado teorema de Bayes. Al calcular dónde van los tokens, las primeras palabras parecen fijar la distribución de los tokens de palabras restantes en el espacio latente.
Los marcadores anteriores tienen posiciones más consistentes, por lo que es más fácil para la red neuronal predecir su relevancia. En la inferencia bayesiana, el primer token o evidencia en la matriz es importante porque establece la condición de probabilidad inicial. Pero los elementos posteriores simplemente modifican la condición de probabilidad. Entonces, al menos en teoría, las últimas fichas no deberían tener más influencia que las fichas anteriores.
Pero la forma en que el analizador entiende las cosas es opaca, por lo que no hay forma de saber con seguridad si el orden léxico tiene un efecto de "ancla".
longitud de la palabra rápida
Evite las palabras rápidas largas.
El orden en que se colocan las palabras clave es la prioridad. Dado que el valor de peso de las palabras indicadoras disminuye desde el frente hacia atrás, las palabras indicadoras colocadas particularmente tarde tienen poco efecto en la generación real de la imagen.
Es un buen hábito no apilar palabras clave, pero si realmente tiene mucho contenido para escribir, puede aumentar la cantidad de pasos de generación de manera adecuada para hacer un mejor uso de las palabras clave en el proceso de generación.
La forma en que SD-WebUI rompe el límite de 75 frases como máximo es agrupando cada 20 + 55 palabras. opción Increase coherency by padding from the last comma within n tokens when using more than 75 tokens
para que el programa intente mitigar esto buscando la última coma en los últimos N tokens y, si es así, moviendo todo más allá de esa coma al siguiente conjunto. Esta estrategia puede aliviar adecuadamente el problema de que hay demasiadas palabras indicadoras con las que lidiar, pero puede destruir la relación de peso entre las palabras indicadoras.
Además del manejo especial de esta situación por parte de WebUI, debido a la limitación del modelo GPT-3, el espacio de procesamiento para las palabras de solicitud no es ilimitado, la mayoría de ellas tienen entre 75 y 80 caracteres, y el contenido después de 75 caracteres será ser truncado.
especificidad
El problema se manifiesta en el desplazamiento semántico. Para el entrenamiento de las redes neuronales, la calidad de las características es importante: cuanto más fuerte sea la conexión entre la entrada y la salida, más fácil será para la red neuronal aprender esta conexión.
En otras palabras, si una palabra clave tiene un significado muy específico, es mucho más fácil aprender su asociación con una imagen que si una palabra clave tiene un significado muy amplio.
De esta manera, incluso una palabra clave poco utilizada como "Zettai Ryouiki" puede producir muy buenos resultados porque solo se usa en casos muy específicos. Por otro lado, "anime" incluso siendo una palabra relativamente común no produce grandes resultados, probablemente porque se usa en muchas situaciones diferentes, incluso para anime que no tiene un significado literal. Elegir palabras clave específicas es especialmente importante si desea controlar el contenido de sus imágenes. Además: cuanto menos abstracta sea tu redacción, mejor. Si es posible, evite la redacción que deje lugar a la interpretación o requiera "comprensión" de algo que no pertenece a la imagen. Incluso conceptos como "grande" o "pequeño" son problemáticos porque no se pueden distinguir de los objetos que están cerca o lejos de la cámara. Idealmente, use una redacción que tenga una alta probabilidad de aparecer textualmente en el título de la imagen deseada.
desequilibrio semántico
Cada señal es como un tinte, tienen diferentes "afinidades", y si la señal más común, por ejemplo ( loli
colocada junto a otras señales) tiene un impacto mayor que la otra señal.
Por ejemplo, si desea generar imágenes de anime y usar la startrail
etiqueta de cielo estrellado, habrá más elementos de cielo estrellado de fotos reales que el cielo estrellado de anime que espera.
Muchas palabras tienen diferentes pesos en el punto de referencia, por lo que se deben realizar ajustes razonables según el efecto.
indicación negativa
La aplicación web SD-WebUI evitará generar contenido mencionado por palabras negativas al generar .
Las sugerencias negativas son una forma de usar Stable-Diffusion, lo que permite al usuario especificar lo que no quiere ver sin hacer requisitos adicionales en el propio modelo.
Al especificar unconditional_conditioning
el parámetro, durante la generación, el muestreador observa la diferencia entre la imagen sin ruido que se ajusta a la señal (castillo) y la imagen sin ruido que parece una señal negativa (granulada, brumosa) e intenta que el resultado final se aleje más del negativo. inmediato.
factor de peso
Los factores de ponderación pueden cambiar el peso de partes específicas de la palabra clave.
Para obtener más información, consulte Wiki:Énfasis en la atención
Para SD-WebUI, las reglas específicas son las siguientes:
(word)
- Aumentar el peso en 1,1 veces((word))
- Aumentar el peso en 1,21 veces (= 1,1 * 1,1), relación multiplicativa.[word]
- Reducir el peso en un 90,91%(word:1.5)
- Aumentar el peso en 1,5 veces(word:0.25)
- Reducir el peso al 25% del original\(word\)
- Use caracteres literales () en palabras rápidas
Se requieren paréntesis cuando se especifican pesos usando números ()
. Si no se especifica un peso numérico, se supone que 1.1
. La especificación de un solo peso solo está disponible para SD-WebUI.
Independientemente del guión específico utilizado, la repetición de una palabra clave parece aumentar su efecto.
Vale la pena señalar que cuantas más palabras de indicación haya en su indicación, menor impacto tendrá cualquier palabra de indicación. También notará que el estilo se desvanece al agregar nuevas palabras clave por este motivo. Se recomienda encarecidamente variar la fuerza de las palabras de estilo a medida que aumenta la longitud del mensaje para mantener un estilo uniforme.