Realización rápida de la implementación de ingeniería, la tecnología de nube de Amazon proporciona una base confiable para la producción de AIGC

Este artículo utilizará la implementación del kit rápido de difusión estable en Amazon SageMaker para presentar los conceptos básicos del modelo de difusión estable, la interfaz de difusores HuggingFace y cómo usar el kit rápido para implementar rápidamente servicios de inferencia en el punto final de SageMaker.

Modelo de difusión estable

En 2022, StabilityAI, Runway y el equipo CompVis de la Universidad de Munich lanzaron conjuntamente el modelo Stable Diffusion. El código y los pesos del modelo han sido de código abierto. Las versiones principales actuales son v1.5 (runwayml/stable-diffusion- v1-5), v2 y v2.1 (estabilidadai/difusión-estable-2, estabilidadai/difusión-estable-2-1). El modelo Stable Diffusion admite el uso de sugerencias para generar nuevas imágenes que describan elementos que se incluirán u omitirán, así como volver a dibujar imágenes existentes con nuevos elementos descritos en las sugerencias. El modelo también permite agregar sugerencias a los cambios parciales existentes. Dibujo interior y exterior de la figura.

Stable Diffusion es un modelo de texto a imagen basado en modelos de difusión latente (LDM). Stable Diffusion consta de 3 partes: codificador automático variacional (VAE), U-Net y un codificador de texto. Stable Diffusion entrena modelos de difusión latente en un subconjunto de LAION-5B, que se dedica a la generación de texto. El modelo genera imágenes mediante la iteración de datos de "eliminación de ruido" en un espacio de representación latente, y luego decodifica los resultados de la representación en imágenes completas. La generación de imágenes se puede completar en menos de 10 segundos en la GPU, lo que reduce en gran medida el umbral de aterrizaje y lo trae ha provocado un incendio en el campo de la generación de texto e imágenes.

 

Modelo de difusión estable

Formatos comunes y métodos de almacenamiento

En la actualidad, varios modelos derivados de Stable Diffusion en la comunidad tienen diferentes formatos de archivo y métodos de almacenamiento.Estos diferentes formatos de archivo y métodos de almacenamiento requieren que los usuarios usen diferentes códigos para cargar y razonar. Existen principalmente dos formatos de archivo principales del modelo Stable Diffusion, a saber, ckpt y safetensors; el método de almacenamiento se puede dividir en un solo archivo y una estructura de difusores.

Métodos comunes de razonamiento del modelo de difusión estable

Uso común del modelo de difusión estable:

  1. Para el código nativo de pytorch, CompVis proporciona txt2img.py e img2img.py en Stable Diffusion stable-diffusion-v1-4, que se generan al cargar el modelo a través de pytorch.
  2. GUI, incluidas Stable-Diffusion-WebUI, InvokAI y ComfyUI, por lo general, estas herramientas funcionan junto con la IU y los servicios de inferencia, y se implementan en la tarjeta gráfica local.
  3. La interfaz HuggingFace Difusers, a través de StableDiffusionPipeline, StableDiffusionImg2ImgPipeline puede cargar rápidamente modelos de terceros o modelos locales, y el Stable Diffusion Quick Kit se llama en el camino de los difusores.

En el proceso de razonamiento, puede elegir el muestreador correspondiente (Sampler, llamado Programador en Difusores).Los muestreadores comunes incluyen Euler Discrete, Euler Ancestral Discrete, DDIM, KDPM2 Discrete, LMSD, etc.

En SageMaker con Quick Kit

Despliegue rápido del servicio de inferencia de difusión estable

El código de ingeniería especialmente creado por el equipo de arquitectos de la nube de Amazon para la inferencia y el entrenamiento del modelo Stable Diffusion implementado en la nube, a través del sagemaker-stablediffusion-quick-kit, el modelo de la estructura de directorios de los difusores se puede implementar rápidamente en SageMaker y generado La interfaz API del protocolo Http y la interfaz que separa los extremos frontal y posterior. Para que los usuarios de la tecnología en la nube de Amazon puedan aplicar rápidamente Stable Diffusion a negocios y productos.

en conclusión

En resumen, el razonamiento de Stable Diffusion es un servicio que consume relativamente mucho tiempo. Al proporcionar servicios al cliente, se debe considerar la disponibilidad y escalabilidad del servicio bajo múltiples solicitudes simultáneas. Sin embargo, en comparación con los servicios de aplicaciones ordinarios, AI Reasoning requiere el uso de recursos de GPU relativamente costosos.Cómo controlar de manera efectiva los costos bajo la premisa de garantizar servicios confiables también es un factor importante que Amazon Cloud Technology debe considerar.

El razonamiento asíncrono de SageMaker puede lograr fácilmente los objetivos anteriores. Su cola interna puede desacoplar las solicitudes de front-end y el razonamiento de back-end, y puede realizar el almacenamiento en búfer durante los picos de tráfico para garantizar la disponibilidad del servicio. AutoScaling a través del razonamiento asíncrono de SageMaker puede expandir automáticamente los nodos de inferencia para realizar la recuperación de recursos durante los períodos de poco tráfico y ahorrar costes. En comparación con la tarjeta gráfica dedicada v100 y la 3090 y otras tarjetas gráficas civiles, los modelos más rentables, como ml.g4dn y ml.g5 proporcionados por SageMaker, se utilizan para implementar la inferencia, y el costo de los recursos se puede controlar aún más bajo la premisa de asegurar el rendimiento. La combinación de SageMaker y Stable Diffusion Quick Kit puede ayudar a completar rápidamente la implementación de ingeniería del modelo de difusión en Amazon Cloud, proporcionando una base sólida y confiable para la producción de AIGC del usuario.

Supongo que te gusta

Origin blog.csdn.net/Discovering_/article/details/130974296
Recomendado
Clasificación