Imagen de generación de texto de difusión estable cómo escribir palabras rápidas

Stable Diffusion es una tecnología basada en redes neuronales que genera imágenes correspondientes ingresando palabras clave. Para obtener una salida de imagen de alta calidad, debe elegir las palabras clave apropiadas y asegurarse de que estimulen la imaginación y la creatividad del modelo.

Aquí hay algunas sugerencias para escribir palabras clave:

  1. Determine el tema: Primero, determine el tema o contenido de la imagen que desea generar. Por ejemplo, puede elegir paisajes naturales, arte abstracto, escenas de ciencia ficción y más. Aclarar el tema ayuda a guiar al modelo para generar contenido relacionado con el tema.
  2. Use un lenguaje claro y conciso: Trate de describir sus necesidades en un lenguaje simple y claro. Evite un vocabulario demasiado complejo o vago que pueda causar confusión.
  3. Proporcione suficientes detalles: Proporcione suficientes detalles al modelo para que pueda comprender con precisión sus requisitos. Por ejemplo, si desea generar una imagen de un cielo estrellado por la noche, puede describir el número, el color, la distribución, etc. de las estrellas.
  4. Aproveche los adjetivos y adverbios: el uso de adjetivos y adverbios puede ayudar al modelo a comprender sus pensamientos de manera más específica. Por ejemplo, podrías describir "estrella brillante", "estrella fugaz centelleante", etc.
  5. Evite las palabras restrictivas: intente evitar el uso de palabras restrictivas, como "debe", "solo puede", etc. Esto puede limitar la imaginación y la creatividad del modelo. En su lugar, intente utilizar preguntas abiertas como "Por favor, imagine...".
  6. Use ejemplos: para ayudar al modelo a comprender mejor sus necesidades, puede proporcionar algunos ejemplos reales o imágenes de muestra como referencias. Esto facilita que el modelo capte puntos clave y genere imágenes que coincidan con las expectativas.

texto a imagen

Primero comprenda los parámetros básicos proporcionados por la aplicación web SD-WebUI a través de los [Conceptos básicos del ajuste de parámetros] anteriores.

Las siguientes fuentes de contenido están organizadas por la red.

como escribir avisos

Esta es una guía general, el contenido es básicamente general, puede haber excepciones, lea los capítulos correspondientes para comprender las características de las diferentes aplicaciones.

CONSEJO

Las palabras indicadoras son indicaciones en lugar de una base de juicio. Por ejemplo, cuando ingresa palabras de juicio de calidad, en realidad está limitando el alcance de los datos, en lugar de "requerir" IA para producir una buena imagen.

etiqueta de palabra

Para modelos entrenados específicamente en palabras de etiquetas, se recomienda usar palabras separadas por comas como indicaciones.

Las palabras comúnmente vistas, por ejemplo, son etiquetas conocidas (como Danbooru) que se pueden encontrar en el sitio de origen del conjunto de datos. El estilo de las palabras debe coincidir con el estilo general de la imagen, de lo contrario habrá estilos mezclados o ruido.

Evite los errores tipográficos. Un modelo de PNL podría dividir las palabras mal escritas en letras para su procesamiento.

lenguaje natural

Para modelos entrenados en lenguaje natural, se recomienda usar oraciones que describan objetos como palabras clave.

Según el conjunto de datos utilizado para el entrenamiento, se pueden usar símbolos especiales en inglés, japonés o algo de chino. El inglés es más efectivo en la mayoría de los casos.

Evite withconectores como , o sintaxis compleja, la mayoría de las veces el modelo NLP solo hará lo mínimo.

Evite los acentos (como é y è) y las diéresis alemanas (como ä y ö), que pueden no estar asignadas a la semántica correcta.

No se recomienda aplicar plantillas listas para usar al azar, especialmente plantillas que no pueden ser entendidas por humanos.

Kaomoji

Para los modelos que usan datos de Danbooru, puede usar emoticonos para controlar la expresión del gráfico hasta cierto punto.

Por ejemplo:

:-)Sonriendo :-(Enfadado ;-)Guiñando el ojo Feliz :-DSacando :-Pla lengua :-CTriste Sorprendido :-OBoca abierta :-/Dudoso

espacio

Una pequeña cantidad de espacios antes y después de la coma no afecta el efecto real.

Los espacios adicionales al principio y al final simplemente se descartan. Los espacios adicionales entre palabras también se descartan.

signos de puntuación

\0Separar las palabras clave con comas, puntos o incluso caracteres vacíos ( ) puede mejorar la calidad de la imagen. No está claro qué tipo de puntuación o qué combinación funciona mejor. En caso de duda, simplemente hágalo de una manera que haga que el mensaje sea más fácil de leer.

Para algunos modelos, se recomienda _convertir los guiones bajos ( ) en espacios.

palabras de estilo artistico

Puede crear imágenes con efectos especiales o un estilo específico de pintura especificando palabras clave de estilo.

movimiento y postura

Elija señales que solo sean relevantes para algunas poses si no son muy exigentes.

Pose aquí se refiere a la configuración física de algo: la posición y rotación de un sujeto de imagen en relación con la cámara, los ángulos de las articulaciones humano/robot, la forma en que se comprime un bloque de gelatina, etc. Cuanta menos variación haya en las cosas que intenta especificar, más fácil será para el modelo aprender.

Debido a que el movimiento, por definición, implica grandes cambios en la postura del sujeto, las señales asociadas con el movimiento a menudo resultan en distorsiones del cuerpo, como extremidades repetidas. Además, debido a que las extremidades humanas, especialmente las manos y los pies humanos, tienen muchas articulaciones, pueden asumir muchas poses diferentes y complejas. Esto hace que sus visualizaciones sean particularmente difíciles de aprender, tanto para humanos como para redes neuronales.

En resumen: las buenas imágenes de humanos de pie/sentados son fáciles, las buenas imágenes de humanos saltando/corriendo son difíciles.

cómo escribir

plantilla

Piense en qué dibujar primero, como el tema, la apariencia, la emoción, la ropa, la pose, el fondo, etc., y luego consulte la tabla de etiquetas del conjunto de datos (si corresponde, como Danbooru, Pixiv, etc.).

Luego, agrupe las palabras clave similares deseadas, usando la mitad del ancho en inglés , como separadores, y organícelas en orden de la más importante a la menos importante.

Un ejemplo de plantilla es el siguiente:

(quality), (subject)(style), (action/scene), (artist), (filters)
  • (quality)Representa la calidad de la imagen, como el uso low rescombinado stickerpara "usar" más conjuntos de datos y el uso 1girlcombinado high qualitypara obtener imágenes de alta calidad.
  • (subject)Representar el tema de la pantalla, anclar el contenido de la pantalla, es una parte fundamental de cualquier señal.
  • (style)es el estilo de pantalla, opcional.
  • (action/scene)Representa una acción/escena, describiendo qué hizo el sujeto y dónde.
  • (artist)Representa el nombre del artista o el nombre de la productora.
  • (filters)Representa algunos detalles, complementados. Se pueden usar artistas, estudios, términos de cámara, nombres de personajes, estilos, efectos especiales y más.

capitalización

El tokenizador de CLIP pone en minúsculas todas las palabras antes de tokenizar. Otros modelos, como BERT y T5, tratan las palabras en mayúsculas de forma diferente a las palabras sin mayúsculas.

Pero evite involucrar una sintaxis especial en caso de que se interprete como otra semántica, p AND.

orden léxico

Parece que los VAE usan un método estadístico llamado teorema de Bayes. Al calcular dónde van los tokens, las primeras palabras parecen fijar la distribución de los tokens de palabras restantes en el espacio latente.

Los marcadores anteriores tienen posiciones más consistentes, por lo que es más fácil para la red neuronal predecir su relevancia. En la inferencia bayesiana, el primer token o evidencia en la matriz es importante porque establece la condición de probabilidad inicial. Pero los elementos posteriores simplemente modifican la condición de probabilidad. Entonces, al menos en teoría, las últimas fichas no deberían tener más influencia que las fichas anteriores.

Pero la forma en que el analizador entiende las cosas es opaca, por lo que no hay forma de saber con seguridad si el orden léxico tiene un efecto de "ancla".

longitud de la palabra rápida

Evite las palabras rápidas largas.

El orden en que se colocan las palabras clave es la prioridad. Dado que el valor de peso de las palabras indicadoras disminuye desde el frente hacia atrás, las palabras indicadoras colocadas particularmente tarde tienen poco efecto en la generación real de la imagen.

Es un buen hábito no apilar palabras clave, pero si realmente tiene mucho contenido para escribir, puede aumentar la cantidad de pasos de generación de manera adecuada para hacer un mejor uso de las palabras clave en el proceso de generación.

La forma en que SD-WebUI rompe el límite de 75 frases como máximo es agrupando cada 20 + 55 palabras. opción Increase coherency by padding from the last comma within n tokens when using more than 75 tokenspara que el programa intente mitigar esto buscando la última coma en los últimos N tokens y, si es así, moviendo todo más allá de esa coma al siguiente conjunto. Esta estrategia puede aliviar adecuadamente el problema de que hay demasiadas palabras indicadoras con las que lidiar, pero puede destruir la relación de peso entre las palabras indicadoras.

Además del manejo especial de esta situación por parte de WebUI, debido a la limitación del modelo GPT-3, el espacio de procesamiento para las palabras de solicitud no es ilimitado, la mayoría de ellas tienen entre 75 y 80 caracteres, y el contenido después de 75 caracteres será ser truncado.

especificidad

El problema se manifiesta en el desplazamiento semántico. Para el entrenamiento de las redes neuronales, la calidad de las características es importante: cuanto más fuerte sea la conexión entre la entrada y la salida, más fácil será para la red neuronal aprender esta conexión.

En otras palabras, si una palabra clave tiene un significado muy específico, es mucho más fácil aprender su asociación con una imagen que si una palabra clave tiene un significado muy amplio.

De esta manera, incluso una palabra clave poco utilizada como "Zettai Ryouiki" puede producir muy buenos resultados porque solo se usa en casos muy específicos. Por otro lado, "anime" incluso siendo una palabra relativamente común no produce grandes resultados, probablemente porque se usa en muchas situaciones diferentes, incluso para anime que no tiene un significado literal. Elegir palabras clave específicas es especialmente importante si desea controlar el contenido de sus imágenes. Además: cuanto menos abstracta sea tu redacción, mejor. Si es posible, evite la redacción que deje lugar a la interpretación o requiera "comprensión" de algo que no pertenece a la imagen. Incluso conceptos como "grande" o "pequeño" son problemáticos porque no se pueden distinguir de los objetos que están cerca o lejos de la cámara. Idealmente, use una redacción que tenga una alta probabilidad de aparecer textualmente en el título de la imagen deseada.

desequilibrio semántico

Cada señal es como un tinte, tienen diferentes "afinidades", y si la señal más común, por ejemplo ( lolicolocada junto a otras señales) tiene un impacto mayor que la otra señal.

Por ejemplo, si desea generar imágenes de anime y usar la startrailetiqueta de cielo estrellado, habrá más elementos de cielo estrellado de fotos reales que el cielo estrellado de anime que espera.

Muchas palabras tienen diferentes pesos en el punto de referencia, por lo que se deben realizar ajustes razonables según el efecto.

indicación negativa

La aplicación web SD-WebUI evitará generar contenido mencionado por palabras negativas al generar .

Las sugerencias negativas son una forma de usar Stable-Diffusion, lo que permite al usuario especificar lo que no quiere ver sin hacer requisitos adicionales en el propio modelo.

Al especificar unconditional_conditioningel parámetro, durante la generación, el muestreador observa la diferencia entre la imagen sin ruido que se ajusta a la señal (castillo) y la imagen sin ruido que parece una señal negativa (granulada, brumosa) e intenta que el resultado final se aleje más del negativo. inmediato.

factor de peso

Los factores de ponderación pueden cambiar el peso de partes específicas de la palabra clave.

Para obtener más información, consulte Wiki:Énfasis en la atención

Para SD-WebUI, las reglas específicas son las siguientes:

  • (word)- Aumentar el peso en 1,1 veces
  • ((word))- Aumentar el peso en 1,21 veces (= 1,1 * 1,1), relación multiplicativa.
  • [word]- Reducir el peso en un 90,91%
  • (word:1.5)- Aumentar el peso en 1,5 veces
  • (word:0.25)- Reducir el peso al 25% del original
  • \(word\)- Use caracteres literales () en palabras rápidas

Se requieren paréntesis cuando se especifican pesos usando números (). Si no se especifica un peso numérico, se supone que 1.1. La especificación de un solo peso solo está disponible para SD-WebUI.

Independientemente del guión específico utilizado, la repetición de una palabra clave parece aumentar su efecto.

Vale la pena señalar que cuantas más palabras de indicación haya en su indicación, menor impacto tendrá cualquier palabra de indicación. También notará que el estilo se desvanece al agregar nuevas palabras clave por este motivo. Se recomienda encarecidamente variar la fuerza de las palabras de estilo a medida que aumenta la longitud del mensaje para mantener un estilo uniforme.

Red de fuente de lectura extendida

Supongo que te gusta

Origin blog.csdn.net/u014096024/article/details/132012899
Recomendado
Clasificación