Notas de fragmentos | Descripción general de la tecnología central de AIGC

Prólogo : AIGC significa contenido generado por IA, traducido literalmente como generación de contenido de inteligencia artificial. Es decir, se utiliza tecnología de inteligencia artificial para producir contenido automáticamente. El estallido de AIGC en 2022 se debe principalmente a la innovación tecnológica en los modelos de aprendizaje profundo. La integración de algoritmos de generación emergentes, modelos previamente entrenados y tecnologías multimodales ha desencadenado cambios tecnológicos en AIGC, convirtiendo los modelos de IA en una "fábrica" ​​y una "línea de montaje" para la producción automatizada de contenidos. A continuación se presentan los principales modelos utilizados por AIGC.

1. Generar modelo

1. Codificador automático variacional (VAE)

Kingma y Welling propusieron codificadores automáticos variacionales [1] en 2014. A diferencia de los codificadores automáticos tradicionales que describen el espacio latente numéricamente, observa el espacio latente de forma probabilística. VAE se divide en dos partes: codificador y decodificador. El codificador convierte los datos de entrada originales de alta dimensión en una descripción de distribución de probabilidad del espacio latente, y el decodificador reconstruye y genera nuevos datos a partir de los datos muestreados.

Supongamos que una imagen de rostro genera varias características como "sonrisa", "color de piel", "género", "barba", "gafas", "color de cabello", etc. a través del codificador. Después, el codificador automático tradicional codifica la imagen de entrada. Las características latentes generadas son valores específicos, por ejemplo, sonrisa = 0,5, color de piel = 0,8, etc. Estos valores se envían al decodificador para decodificar y obtener una imagen cercana a la entrada, es decir, la información del rostro. se ha almacenado en la red y la entrada Para esta cara, se generará una imagen fija similar a la cara. Sin embargo, el método anterior no puede generar diversas imágenes que sean similares a la entrada. Por lo tanto, VAE representa cada característica mediante una distribución de probabilidad. Supongamos que el rango de valores de "sonrisa" es de 0 a 5, y el rango de valores de "color de piel" es 0 ~ 10, el muestreo numérico dentro de este rango puede obtener la representación de características latentes de la imagen generada y, al mismo tiempo, la imagen generada se puede obtener decodificando las características latentes generadas por el decodificador.

2. Red Adversaria Generativa (GAN)

La red generativa adversarial [2] fue propuesta por Ian GoodFellow y otros en 2014. Utiliza el aprendizaje de estrategias de juegos de suma cero y se usa ampliamente en la generación de imágenes. GAN contiene dos partes:

  • Generador: aprenda a generar datos razonables. Para la generación de imágenes, dado un vector, se genera una imagen. Los datos generados se utilizan como muestras negativas del discriminador y los datos reales se utilizan como muestras negativas del discriminador.
  • Discriminador: Discrimina si la entrada son datos generados o datos reales. Cuanto más cerca esté la salida de la red de 0, más probable será que genere datos; por el contrario, más probable es que genere datos reales.
    Generador y discriminador se oponen. En el entrenamiento iterativo continuo, las capacidades de ambas partes continúan fortaleciéndose y el resultado ideal final es: para los datos generados por el generador, el discriminador no puede distinguir entre verdadero y falso.

3. Modelo de flujo (Flujo)

El modelo de flujo [3] fue propuesto por Yoshua Bengio y otros en 2014. Es el resultado del mismo período que VAE y GAN. Sin embargo, debido al sesgo matemático general del modelo de flujo, y los primeros resultados no fueron particularmente buenos pero la cantidad de cálculo fue extremadamente grande, no fue hasta que OpenAI lanzó el modelo Glow [4] basado en el modelo de flujo que la investigación sobre el El modelo de flujo fue ganando atención gradualmente. El objetivo del modelo de flujo es encontrar la distribución de las muestras de entrada enfrentando directamente el cálculo de probabilidad del modelo generativo. Las transformaciones de los modelos de flujo suelen ser reversibles. En términos generales, el modelo de flujo consiste en realizar transformaciones no lineales en datos complejos de alta dimensión, asignar datos de alta dimensión al espacio latente y generar variables latentes independientes. Este proceso es reversible, es decir, se puede mapear desde datos de alta dimensión al espacio latente y viceversa.

4. Modelo de difusión

La difusión se inspira en la termodinámica de no equilibrio, define una cadena de Markov de pasos de difusión, agrega ruido gradualmente a los datos y luego aprende el proceso de difusión inversa para construir las muestras requeridas a partir del ruido. El modelo de difusión [5] fue diseñado originalmente para eliminar el ruido de las imágenes. A medida que los sistemas de reducción de ruido se entrenan mejor y durante más tiempo, se pueden generar imágenes realistas a partir de ruido puro como única entrada. Los modelos de difusión funcionan corrompiendo los datos de entrenamiento agregando ruido y luego permitiendo que el modelo aprenda cómo eliminar el ruido para recuperar los datos. Luego, el modelo aplica este proceso de eliminación de ruido a semillas aleatorias para generar imágenes realistas.

Un modelo de difusión estándar se divide en dos procesos: (1) Difusión hacia adelante: agregue gradualmente ruido a la imagen original hasta que la imagen se convierta en ruido completamente aleatorio; (1) Difusión hacia atrás: elimine gradualmente el ruido de predicción en cada paso de tiempo, recuperando así el original. datos del ruido gaussiano.

La difusión estable es una implementación de un modelo gráfico vicentino basado en modelos de difusión latente (LDM), por lo que si domina los LDM, dominará el principio de difusión estable. Para reducir la potencia informática del modelo de difusión de entrenamiento, los LDM utilizan un codificador automático para aprender una expresión espacial de baja dimensión (incrustación latente) que puede expresar el espacio de la imagen original tanto como sea posible, lo que puede reducir en gran medida la potencia informática requerida.

5. Transformador

Transformer[6] fue propuesto por Google en 2017 y originalmente se utilizó para completar la traducción entre diferentes idiomas. Su cuerpo principal incluye codificador y decodificador, el primero codifica el idioma de origen y el segundo convierte la información codificada en texto del idioma de destino. Transformer utiliza un mecanismo de atención para asignar diferentes pesos según la importancia de cada parte de los datos de entrada. Su ventaja de procesamiento paralelo le permite entrenarse en un conjunto de datos más grande, lo que acelera el desarrollo de grandes modelos previamente entrenados como GPT.

6. Transformador de visión (ViT)

ViT[7] fue propuesto por el equipo de Google en 2020 y es un caso exitoso de aplicación de Transformer a tareas de clasificación de imágenes. ViT divide la imagen en 14 * 14 parches y transforma linealmente cada parche para obtener un vector de longitud fija y lo envía al Transformer, cuyo procesamiento posterior es el mismo que el del Transformer estándar.

7. Serie GPT

El nombre completo de GPT [8] es Transformador generativo preentrenado y su estructura se basa en el modelo Transformer, que puede generar texto similar a un humano al predecir la siguiente palabra en una secuencia de palabras. En comparación con GPT, GPT-2[9] y GPT-3[10] mejoran principalmente el tamaño del modelo, los datos de entrenamiento, el control de generación y la calidad de la generación. GPT-3.5 agrega nuevos métodos de capacitación, incluido el metaaprendizaje y el aprendizaje por refuerzo basado en retroalimentación humana (Reward Learning from Human Feedback, RLHF). La tecnología RLHF puede ayudar al modelo a aprender de la retroalimentación humana y mejorar continuamente la calidad de su generación. Al mismo tiempo, esta tecnología también puede evitar que los modelos generen contenido inapropiado o dañino y garantizar que el texto generado cumpla con los valores humanos y las normas morales.

ChatGPT e InstructGPT [11] son ​​modelos hermanos e introduce algunos datos de entrenamiento nuevos y tecnología de ajuste basado en GPT-3.5, como el modelado del historial de conversaciones y el procesamiento de conversaciones de múltiples turnos, para mejorar el rendimiento del modelo en el diálogo. en tareas de generación. Al mismo tiempo, ChatGPT también utiliza alguna intervención manual y métodos de aprendizaje interactivo para mejorar aún más la controlabilidad y naturalidad del modelo.

En marzo de 2023, OpenAI lanzó GPT-4 [12], que logró los mejores resultados hasta la fecha en términos de factibilidad, controlabilidad y evitación de exceder los límites.

2. Entrenamiento previo de modelos grandes

Aunque han surgido varios modelos en el pasado, el contenido generado es simple y de baja calidad, lo que está lejos de cumplir con los requisitos para la generación de contenido flexible y de alta calidad en escenarios del mundo real. La aparición de grandes modelos previamente entrenados ha provocado cambios cualitativos en AIGC y se han resuelto muchos problemas. Los modelos grandes han logrado grandes logros en el campo CV/NLP/multimodal, como el campo CV: Microsoft Florence (SwinTransformer), el campo NLP: Bert&LaMDA&PaLM de Google, GPT-3&ChatGPT de OpenAI y el campo multimodal: CLIP[13] &DALL de OpenAI. -E, GLIP de Microsoft y Difusión estable de Stability AI.

3. Productos relacionados con AIGC

Generación de texto: JasperAI, copy.AI, ChatGPT, Bard, AI dungeon, Wen Xinyiyan, etc.;
generación de imágenes: EditGAN, Deepfake, DALL-E 2[14] (Wen Shengtu & Tushengtu), Imagen[15] (Wen Sheng Tu), Midjourney, Stable Diffusion [16] (Wen Sheng Tu & Wen Tu Sheng Tu), Wen Xin Yige, etc.; generación de audio: DeepMusic, WaveNet, Deep Voice
, MusicAutoBot, etc.;
generación de video: Deepfake, videoGPT, Gliacloud, Make-A-Video, Imagen vídeo, etc.


Referencias

  1. Artículo extenso de 10.000 palabras: análisis completo de la tecnología y aplicaciones AIGC - Zhihu (zhihu.com)
  2. Libro blanco sobre generación de contenido de inteligencia artificial (AIGC) (Academia de Tecnología de la Información y las Comunicaciones de China y Instituto de Investigación JD Discovery)
  3. Informe de tendencias de desarrollo de AIGC 2023 (Instituto de Investigación Tencent)

referencias

  1. DP Kingma y Max Welling. Bayes variacionales de codificación automática. ICLR, 2014.
  2. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza y ​​otros. Redes generativas adversarias. NIPS, 2014.
  3. Laurent Dinh, David Krueger, Yoshua Bengio. NICE: Estimación de Componentes Independientes No Lineales. ICLR (Taller), 2015.
  4. Diederik P. Kingma y Prafulla Dhariwal. Resplandor: flujo generativo con convoluciones 1x1 invertibles. NeurIPS, 2018.
  5. Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan y otros. Aprendizaje profundo no supervisado mediante termodinámica de desequilibrio. ICML 2015: 2256-2265.
  6. Ashish Vaswani, Noam Shazeer, Niki Parmar y otros. Atención es todo lo que necesita. NIPS, 2017.
  7. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. Una imagen vale 16x16 palabras: transformadores para el reconocimiento de imágenes a escala. ICLR, 2021.
  8. Radford Alec, Karthik Narasimhan, Tim Salimans y otros. Mejora de la comprensión del lenguaje mediante preentrenamiento generativo. 2018.
  9. Radford Alec, Jeffrey Wu, Rewon Child y col. Los modelos de lenguaje son estudiantes multitarea sin supervisión. Blog de OpenAI 1, núm. 8, 2019.
  10. Brown, Tom, Benjamin Mann, Nick Ryder y otros. Los modelos de lenguaje son aprendices de pocas oportunidades. NIPS, 2020.
  11. Long Ouyang, Jeffrey Wu, Xu Jiang, et al. Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana. NeurIPS, 2022.
  12. https://openai.com/research/gpt-4
  13. Alec Radford, Jong Wook Kim, Chris Hallacy y otros. Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural. ICML, 2021.
  14. Aditya Ramesh, Prafulla Dhariwal, Alex Nichol y otros. Generación de imágenes jerárquicas condicionales de texto con CLIP Latents. arXiv,
  15. Chitwan Saharia, William Chan, Saurabh Saxena y otros. Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje. NeurIPS, 2022.
  16. Robin Rombach, Andreas Blattmann, Dominik Lorenz y otros. Síntesis de imágenes de alta resolución con modelos de difusión latente. CVPR, 2021.

Supongo que te gusta

Origin blog.csdn.net/qq_36332660/article/details/133438496
Recomendado
Clasificación