Modelo de generación de texto a imagen de aprendizaje profundo de difusión estable

1. Difusión estable 
1.1 Uso y controversia 
1.2 Licencia 
1.3 Incontrolabilidad 
1.4 Un poco de reflexión 
1.5 Uso 
1.6 Enlace tutorial 
2. Configuración 
2.1 Dibujar cosas 
2.2 difusionbee 
2.3 AUTOMATIC1111 
3. Modelos 
3.1 Nombre del modelo 
3.2 Descarga del modelo 
3.3 Enlace detallado en chino 
4. Indicaciones

1. Difusión estable

https://zh.wikipedia.org/zh-cn/Stable_Diffusion

https://en.wikipedia.org/wiki/Stable_Diffusion

https://github.com/Stability-AI/stablediffusion

Estabilidad IA

https://github.com/CompVis/stable-diffusion

Stable Diffusion es un modelo de generación de texto a imagen de aprendizaje profundo lanzado en 2022.

Se utiliza principalmente para generar imágenes detalladas a partir de descripciones en el texto, aunque también se puede aplicar a otras tareas, como la representación de relleno, la representación de relleno y la traducción de gráficos generados por gráficos guiados por palabras clave (inglés).

Es un modelo de difusión latente de varias redes neuronales artificiales generativas desarrollado por el grupo de investigación CompVis de la Universidad de Munich.

Fue desarrollado por las startups StabilityAI, CompVis en colaboración con Runway y apoyado por EleutherAI y LAION​ (en inglés).

Los pesos de código y modelo para Stable Diffusion están disponibles públicamente y se ejecutan en la mayoría de los equipos informáticos con una GPU modesta.

Mientras que los modelos gráficos de Vinsen patentados anteriores, como DALL-E y Midjourney, solo se pueden acceder a través de servicios de computación en la nube.

1.1 Uso y controversia

Stable Diffusion no reclama ningún derecho sobre las imágenes generadas y otorga a los usuarios el derecho a utilizar las imágenes generadas por el modelo de forma gratuita, siempre que el contenido de las imágenes no sea ilegal ni perjudique personalmente.

La libertad de usar las imágenes proporcionadas a los usuarios plantea dudas sobre la ética de la propiedad, ya que Stable Diffusion y otros modelos generativos se entrenan con imágenes protegidas por derechos de autor sin el consentimiento de los propietarios.

Dado que el estilo visual y la composición no están protegidos por derechos de autor, generalmente se cree que no se debe considerar que los usuarios de Stable Diffusion que generan imágenes de obras artísticas infringen los derechos de autor de obras visualmente similares.

Sin embargo, si se utiliza su imagen, las personas representadas en las imágenes resultantes pueden estar protegidas por derechos de personalidad, y la propiedad intelectual, como los logotipos de marcas reconocibles, aún puede estar protegida por derechos de autor.

Aún así, los artistas visuales han expresado su preocupación de que el uso generalizado de software de composición de imágenes como Stable Diffusion pueda eventualmente causar que los artistas humanos, así como fotógrafos, modelos, directores de fotografía y actores, pierdan gradualmente su viabilidad comercial con los competidores basados ​​en IA.

En comparación con otros productos comerciales basados ​​en IA generativa, Stable Diffusion es significativamente más permisivo en cuanto al tipo de contenido que los usuarios pueden generar, como imágenes violentas o pornográficas.

Al abordar las preocupaciones de que el modelo podría usarse con fines abusivos, Emad Mostaque, director ejecutivo de Stability AI, explicó que "[es] la responsabilidad de las personas ver cómo operan el modelo es ético, moral y legalmente técnico" y Pondrá la capacidad para mantener la difusión en manos del público daría como resultado que la tecnología proporcionara un beneficio neto, a pesar de las posibles consecuencias negativas.

Además, Mostaque cree que la intención detrás de la disponibilidad abierta de Stable Diffusion es terminar con el control corporativo y el dominio de tales tecnologías, que anteriormente solo se habían desarrollado para sistemas cerrados de IA para la síntesis de imágenes.

Esto se refleja en el hecho de que cualquier restricción impuesta por Stability AI sobre lo que los usuarios pueden generar se puede eludir fácilmente debido a la disponibilidad del código fuente.

1.2 Licencia

A diferencia de modelos como DALL-E, Stable Diffusion proporciona su código fuente además del modelo (pesos preentrenados).

Aplica la licencia Creative ML OpenRAIL-M, una forma de licencia de IA responsable (RAIL), al modelo (M).

La licencia prohíbe ciertos casos de uso, incluidos los delitos, la difamación, el acoso, el doxing, la "explotación de... menores", la prestación de asesoramiento médico, la creación automática de obligaciones legales, la presentación de pruebas legales y la "discriminación o... comportamiento social o. ..rasgos individuales o de personalidad... [o] características o categorías legalmente protegidas”.

Los usuarios poseen los derechos de las imágenes de salida que generan y son libres de utilizarlas comercialmente.

1.3 Incontrolabilidad

  • Use Photoshop, Blender y otro software para hacer imágenes, y el proceso de modelado es un proceso de uso de varias herramientas y comandos, que es un proceso controlable.
  • Use ChatGPT, Stable-Diffusion y otro software basado en inteligencia artificial de aprendizaje profundo para generar contenido, y solo use las palabras clave esperadas para generar contenido. No hay un proceso intermedio y el resultado es incontrolable.

Así que hay 2 características

  • Se dibujará de todos modos. Por ejemplo, usar la palabra clave minimalista "libro blanco", o usar una descripción detallada de 100 palabras, o varias palabras con contenido contradictorio o errores tipográficos, puede generar imágenes. Y use aproximadamente la misma cantidad de tiempo.
  • Probabilidad de graficar resultados. Puede ser sorpresa, susto, risa, nauseas, sin palabras... 

1.4 Un pequeño pensamiento

Una licencia completamente nueva , el contenido aún es relativamente vago y también hay partes controvertidas en sí mismo. El software es de uso gratuito, y cada vez más personas lo usan, produciendo cada vez más fotos falsas y noticias falsas. Incluso si es ilegal, debido a la gran cantidad de personas, la ley incompleta será aún más impotente.

ChatGPT puede crear de manera más eficiente noticias y temas verdaderos y falsos, y la IA genera continuamente fotos falsas. La nueva generación de IA se entrena y aprende en base a una gran cantidad de información falsa y fotos falsas, creando más información falsa, imágenes falsas y un círculo vicioso.

La tecnología debe ser enjaulada, usada bajo supervisión, similar a las drogas que pueden usarse en medicina.

Si AI genera imágenes, intente generarlas a través de algunas páginas web certificadas. Y es necesario registrarse como usuario. Las imágenes generadas pueden ser ilimitadas, pero las copias de seguridad se guardan en el servidor o se pueden proteger contra el abuso masivo.

A principios de año, China también lanzó la investigación y el desarrollo de su propia IA de chat, pero es imposible imaginar cómo se desarrollará. Debido a que muchas palabras son indecibles, recuerdo que he publicado publicaciones de blog varias veces, incluido el nombre de la VPN de código abierto, por lo que no puedo publicarlas y debo cambiarlas. ChatGPT acaba de salir para hacer una broma, y ​​los domésticos temen que sea vergonzoso...

1.5 Propósito

El uso comercial puede implicar una infracción de derechos de autor Aparte de la falsificación, parece que no hay un buen uso práctico.

Para el usuario promedio, es un juguete exitoso en el mejor de los casos.

Cuando se juegan juegos de caja ciega, hay salidas indeterminables (sorpresa, susto, divertido...).

O use una descripción simple similar a la siguiente, modifique la semilla para cada salida y luego calcule la imagen, obtenga una imagen que le guste, luego use esta semilla semilla, modifique la edad, de 3 a 90 años, paso por 3, y salida 30 Toma 1 hora para una imagen (el MacBook Air actual con chip m1 produce una imagen maravillosa de aproximadamente 100) Calcular la misma semilla, la misma palabra rápida y personas de diferentes edades. De lindo como un capullo, a hermoso como una flor, a desvanecerse... 

una mujer, ((25 años)), profesional de fotografía en color RAW con gran detalle, rostro muy detallado: 1.4, retrato detallado de cuerpo entero, piel detallada, belleza, hermoso, cuerpo perfecto, caminar hacia la cámara, bokeh,

Quizás el propósito real es que el sistema recopile una gran cantidad de preferencias de los usuarios para prepararse para la futura IA para comprender la perspectiva humana, la estética humana y una imitación más realista de los seres humanos.

1.6 Enlace tutorial

guía china openai

openAI - Wikipedia de inteligencia artificial de código abierto

Un sitio web chino que contiene varias tecnologías de IA como ChatGPT, Stable Diffusion, etc. 

[Difusión estable] Explicación detallada de ControlNet

[Difusión estable] Explicación detallada de ControlNet - Se busca programador

Guía para principiantes de difusión estable

Guía para principiantes de difusión estable: se busca programador

https://github.com/AUTOMATIC1111/stable-diffusion-webui

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Instalación-en-Apple-Silicon

Cómo instalar y ejecutar Stable Diffusion en Mac Apple Silicon M1/M2 - Stable Diffusion Art

2. Configuración

2.1 Dibujar cosas

Dibujar cosas: generación de imágenes asistida por IA

Basado en el popular modelo Stable Diffusion, Draw Things te ayuda a crear la imagen que tienes en mente en minutos, no en días. Es gratis y ejecuta todo 100% fuera de línea en su dispositivo para proteger su privacidad.

Draw Things puede ejecutarse en portátiles Apple M1 y M2.

Actualmente, la última versión ya es compatible con chino, pero las palabras clave en chino aún no están disponibles, tal vez no sepa cómo usarlas. No existe un sitio web de referencia para las palabras clave en chino.

Ruta de los modelos: 

/Users/tom/Library/Containers/com.liuliu.draw-things/Data/Documents/Models

2.2 abeja de difusión

No recomendado, la función es demasiado simple y muchos modelos populares no son compatibles.

DiffusionBee - Aplicación de difusión estable para arte con IA

https://github.com/divamgupta/diffusionbee-stable-diffusion-ui

 % de difusión de búsqueda de cerveza

 % cerveza instalar difusiónbee

 % brew desinstalar diffusionbee

 % difusión de información de preparación

… ==> Instalación de análisis: 2 (30 días), 136 (90 días), 1523 (365 días)

Ruta de los modelos: 

En la interfaz del Finder, abra el directorio del usuario, use la tecla de acceso directo (comando + shift + punto) para mostrar los archivos ocultos y podrá ver la carpeta del modelo oculto.

/Usuarios/tom/.diffusionbee/descargas 

/Usuarios/tom/.diffusionbee/modelos_personalizados

2.3 AUTOMÁTICO1111

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Instalación-en-Apple-Silicon

Ruta de modelos

/Usuarios/tom/stable-diffusion-webui/modelos

/Usuarios/tom/stable-diffusion-webui/models/Stable-diffusion

3. Modelos

3.1 Sustantivos modelo

  • Modelos: base de datos de modelos
  • LoRA: Afinación, estilos específicos, ciertas poses que te gustan
  • Control: control de actitud, etc.

3.2 Descarga del modelo

https://civitai.com/

Modelos - Cara abrazada

3.3 enlace detallado chino

¿Qué es LoRa que suelen decir los entusiastas de la difusión estable?

¿Qué es LoRa que suelen decir los entusiastas de la difusión estable? - saber casi

LoRA: Adaptación de bajo nivel de modelos de lenguaje grande Se trata de una tecnología desarrollada por investigadores de Microsoft para resolver el ajuste fino de modelos de lenguaje grande, traducido literalmente como adaptación de bajo nivel de modelos de lenguaje grande.

[Difusión estable] Explicación detallada de ControlNet

[Difusión estable] Explicación detallada de ControlNet - Se busca programador

¿Las modelos femeninas siempre no cooperan? ¡úsalo! ¿No tienes inspiración para el arte original del juego? ¡Úsalo también! ¡La pintura arquitectónica, todos los estilos de vida la usan! ¡Es ControlNet! ¡Simplemente ajuste los parámetros para generar una inspiración creativa ilimitada y mejorar nuestra eficiencia creativa! Este complemento SD se ha convertido en el último atractivo en el campo de la pintura de IA. Y su aparición representa que la generación de IA ha entrado en un período realmente controlable, y la capacidad de control de AIGC es el enlace más crítico para que entre en producción real. Antes de esto, todos usaban muchos métodos para que los resultados generados por la IA cumplieran con los requisitos tanto como fuera posible, pero ninguno de ellos era satisfactorio. ControlNet es más preciso y efectivo que el anterior img2img, y puede extraer directamente la composición del imagen, la pose de los personajes y la calidad de la imagen Información detallada y más. Con su ayuda, no necesita usar palabras rápidas con frecuencia para probar suerte y robar cartas.

Interpretación del complemento principal de Stable Diffusion—ControlNet

Interpretación del complemento principal de Stable Diffusion-ControlNet_Xiaoshu Xiaoshu's Blog-CSDN Blog

4. Indicaciones

Página web de palabras rápidas, después de la instalación, descargue el modelo más popular, consulte las palabras rápidas de las bellas imágenes de las siguientes páginas web para probar.

Indicaciones de búsqueda: cree mejores indicaciones para la difusión estable

Arthub.ai: descubre, carga y comparte arte generado por IA

Citu PromptTool: sitio web de gestión de datos de pintura de IA

Vocabulario

https://unicode.org/emoji/charts/full-emoji-list.html#1f604

Supongo que te gusta

Origin blog.csdn.net/bruce__ray/article/details/131021516
Recomendado
Clasificación