Revelando cómo las GPU NVIDIA A100, A800, H100 y H800 pueden lograr una aceleración de entrenamiento 100 veces mayor para modelos grandes de alto rendimiento

Palabras clave: Transformador; PLM; SLM; NLM; LLM; Galactica; OPT; OPT-IML; BLOOM; BLOOMZ; GLM; Reddit; H100; H800; A100; A800; MI200; MI250; LaMA; OpenAI; GQA; RMSNorm; SFT; RTX 4090; A6000; AIGC; CHATGLM; LLVM; LLM; GLM; AGI; HPC; GPU; CPU; CPU+GPU; Nvidia; Nvidia; Intel; AMD; informática de alto rendimiento; servidor de alto rendimiento; cerebro del océano azul; multi -potencia informática heterogénea; entrenamiento de modelos grandes; inteligencia artificial general; servidor GPU; clúster de GPU; clúster de GPU de entrenamiento de modelos grandes; modelo de lenguaje grande; aprendizaje profundo; aprendizaje automático; visión por computadora; IA generativa; ML; DLC; segmentación de imágenes; pre- Modelo de lenguaje entrenado; servidor AI; GH200; L40S; HBM3e; Grace Hopper; Gracehopper

Resumen: Este artículo presenta principalmente los principios operativos internos de los modelos grandes y el estado actual de desarrollo de la potencia informática de mi país. Los modelos grandes se refieren a modelos de aprendizaje profundo con grandes cantidades de parámetros, como GPT-4. Al entrenar con conjuntos de datos a gran escala, puede producir resultados más precisos y creativos. Los principios operativos internos de los modelos grandes incluyen el procesamiento de datos de entrada, cálculos de redes neuronales multicapa y generación de resultados de salida. Estos modelos suelen constar de miles de millones de parámetros y requieren recursos informáticos masivos y memoria de alta velocidad para el entrenamiento y la inferencia.

Con el rápido desarrollo de modelos grandes, nuestro país ha logrado avances significativos en el desarrollo de la potencia informática. En los últimos años, mi país ha invertido muchos recursos en investigación y desarrollo en los campos de la computación de alto rendimiento y la inteligencia artificial, y ha construido una serie de centros de supercomputación y plataformas de computación en la nube. Estas medidas no sólo mejoran las capacidades de investigación científica de nuestro país, sino que también brindan un fuerte apoyo para la capacitación y aplicación de modelos a gran escala. El desarrollo de la potencia informática de mi país ha entrado en las filas de los líderes mundiales, sentando una base sólida para promover el desarrollo de la inteligencia artificial.

La plataforma de entrenamiento de modelos grandes de Blue Ocean Brain es una plataforma informática de alto rendimiento desarrollada independientemente por Blue Ocean Brain y está dedicada al entrenamiento e inferencia de modelos grandes. La plataforma utiliza una arquitectura de hardware avanzada y algoritmos de software optimizados para proporcionar capacidades informáticas y de almacenamiento eficientes.

El principio de funcionamiento interno del modelo grande.

En los últimos años, el entrenamiento previo del modelo Transformer en corpus a gran escala ha dado como resultado un modelo de lenguaje preentrenado (PLM), que demuestra poderosas capacidades de generación y comprensión del lenguaje en diversas tareas de procesamiento del lenguaje natural. Las investigaciones han descubierto que ampliar el tamaño del modelo puede mejorar las capacidades del modelo, lo que lleva a la generación de un modelo de lenguaje grande (LLM). Cuando el tamaño del modelo excede un cierto umbral, estos modelos grandes no solo mejoran en gran medida su rendimiento, sino que también demuestran capacidades de aprendizaje de idiomas que los modelos pequeños no tienen.

El rápido progreso de la tecnología LLM ha cambiado el paradigma de desarrollo y aplicación de los sistemas de IA. Este artículo revisa la historia del desarrollo de la tecnología LLM en los últimos años y resume los recursos de I + D de LLM, los problemas existentes y las direcciones futuras.

I. Introducción

El lenguaje es la capacidad única de expresión y comunicación de los seres humanos. Comienza a formarse en la primera infancia y continúa desarrollándose y cambiando a lo largo de la vida. Sin embargo, si una máquina quiere dominar la capacidad de comprender y utilizar el lenguaje de forma natural como los humanos, debe estar equipada con potentes algoritmos de inteligencia artificial. Lograr máquinas con capacidades de lectura, escritura y comunicación similares a las humanas es un desafío de investigación a largo plazo.

Técnicamente hablando, el modelado del lenguaje es uno de los principales métodos para mejorar la inteligencia del lenguaje de máquina. El modelado del lenguaje normalmente modela las probabilidades de generación de secuencias de palabras para predecir palabras que no aparecen. La investigación sobre modelos lingüísticos ha recibido amplia atención en el mundo académico. Su desarrollo se puede dividir en cuatro etapas principales:

1. Modelo de lenguaje estadístico (SLM)

SLM (Modelo de lenguaje estadístico) surgió en la década de 1990. Se basa en métodos de aprendizaje estadístico y utiliza la hipótesis de Markov para construir un modelo de predicción de palabras. Su SLM con longitud de contexto fija n también se denomina modelo de lenguaje n-ario, como los modelos de lenguaje bigrama y trigrama. Se utiliza ampliamente en la recuperación de información y el procesamiento del lenguaje natural, pero a menudo se enfrenta a la maldición de la dimensionalidad. Por lo tanto, se han introducido estrategias de suavizado especialmente diseñadas, como la estimación de retroceso y la estimación de Good-Turing, para aliviar el problema de la escasez de datos. 


2. Modelo de lenguaje neuronal (NLM)

En el campo del procesamiento del lenguaje natural, los modelos de redes neuronales, como la red neuronal recurrente (RNN), se utilizan ampliamente para describir la probabilidad de secuencias de palabras. Los primeros trabajos introdujeron el concepto de representación distribuida de palabras y construyeron funciones de predicción de palabras basadas en vectores de palabras distribuidos como una contribución importante en este campo. Investigaciones posteriores ampliaron la idea de aprender características efectivas de palabras y oraciones, desarrollaron métodos generales de redes neuronales y establecieron soluciones unificadas para diversas tareas de procesamiento del lenguaje natural. Además, word2vec propone utilizar redes neuronales superficiales simplificadas para aprender representaciones de palabras distribuidas, y se ha demostrado que estas representaciones son muy efectivas en una variedad de tareas de procesamiento del lenguaje natural. La investigación anterior aplica modelos de lenguaje al campo del aprendizaje de representaciones, no solo al modelado de secuencias de palabras, y tiene un profundo impacto en el procesamiento del lenguaje natural.

3. Modelo de lenguaje previamente entrenado (PLM)

PLM adquiere representaciones semánticas mediante un entrenamiento previo en corpus a gran escala y luego los ajusta para tareas posteriores. La introducción de estructuras como Transformer ha mejorado enormemente el rendimiento. El "ajuste previo al entrenamiento" se ha convertido en un paradigma importante en el procesamiento del lenguaje natural.

4. Modelo de lenguaje grande (LLM)

Los modelos de lenguaje grandes continúan expandiendo la escala de modelos y datos, demostrando poderosas capacidades de lenguaje que los modelos pequeños no tienen. Modelos como GPT-3 demuestran increíbles capacidades de aprendizaje contextual. ChatGPT aplica con éxito grandes modelos de lenguaje para abrir conversaciones de dominio.

En comparación con los modelos de lenguaje previamente entrenados (PLM), los modelos de lenguaje grande (LLM) tienen tres diferencias clave:

1) LLM exhibe sorprendentes capacidades emergentes que PLM no tiene, lo que lo hace poderoso en tareas complejas

2) LLM cambiará la forma en que los humanos desarrollan y usan sistemas de inteligencia artificial y se debe acceder a él a través de la interfaz rápida

3) Los límites entre la investigación y la ingeniería del LLM ya no están claros. La tecnología LLM está liderando cambios en campos como la inteligencia artificial, el procesamiento del lenguaje natural, la recuperación de información y la visión por computadora, y está tomando forma un ecosistema de aplicaciones prácticas basado en LLM.

Sin embargo, es necesario explorar más a fondo los principios intrínsecos y los factores clave del LLM. Es muy difícil capacitar LLM a gran escala y también existen desafíos para alinear el LLM con los valores humanos. Por lo tanto, es necesario prestar más atención a la investigación y aplicación de LLM.

2. Descripción general

A continuación se describirán los antecedentes de los modelos de lenguaje grande (LLM) y se describirá la evolución tecnológica de los modelos de la serie GPT.

1. Antecedentes de modelos de lenguaje grandes

Los modelos de lenguaje grande (LLM) generalmente se refieren a modelos de lenguaje estructural Transformer que se entrenan en datos de texto a gran escala y contienen cientos de miles de millones (o más) de parámetros, como GPT-3, PaLM, Galactica, LLaMA y LLaMA2, etc. LLM demuestra sólidas capacidades de comprensión del lenguaje y la capacidad de resolver tareas complejas mediante la generación de texto. Para comprender rápidamente el principio de funcionamiento de LLM, a continuación se presentarán los antecedentes básicos de LLM, incluidas las reglas de expansión, las capacidades de aparición y las tecnologías clave.

1) Reglas de expansión de modelos de lenguaje grandes.

En la actualidad, los grandes modelos de lenguaje se basan principalmente en la arquitectura Transformer, en la que las capas del mecanismo de atención de múltiples cabezales se apilan en redes neuronales muy profundas. Los modelos de lenguaje grandes existentes utilizan una estructura Transformer similar y los mismos objetivos previos al entrenamiento (como el modelado de lenguaje) que los modelos de lenguaje pequeño, pero los modelos de lenguaje grande expanden en gran medida el tamaño del modelo, el volumen de datos de entrenamiento y la cantidad total de cálculo (un orden de magnitud). mejora). Numerosos estudios han demostrado que el escalado puede mejorar significativamente las capacidades de los modelos lingüísticos. Por lo tanto, es significativo establecer un método cuantitativo para describir el efecto de dispersión.

Ley de expansión de KM: en 2020, el equipo de OpenAI propuso por primera vez que existe una relación de ley de potencia entre el rendimiento del modelo de lenguaje neuronal y el tamaño del modelo, el tamaño del conjunto de datos y la cantidad de cálculo de entrenamiento. Se proponen tres fórmulas basadas en experimentos para describir la ley de expansión bajo un presupuesto computacional determinado.

Aquí L es la pérdida de entropía cruzada expresada en logaritmo natural. Las tres reglas anteriores se obtienen ajustando el rendimiento del modelo de lenguaje a diferentes cantidades de datos, diferentes tamaños de modelo y diferentes cálculos de entrenamiento. Los resultados muestran que el rendimiento del modelo tiene una fuerte dependencia de estos tres factores.

Regla de escala de Chinchilla: el equipo de Google DeepMind propuso una forma alternativa de regla de escala para guiar el cálculo de entrenamiento óptimo de modelos de lenguaje grandes. Se realizaron experimentos rigurosos en una gama más amplia de tamaños de modelos y cantidades de datos y se ajustó una ley de expansión similar, pero con diferentes coeficientes:

En esta ley, E, A, B, α y β son coeficientes determinados empíricamente. Los investigadores demostraron además cómo asignar de manera óptima el presupuesto informático entre el tamaño del modelo y la cantidad de datos optimizando la función de pérdida L(N,D) bajo la condición de la restricción de cálculo de entrenamiento C ≈ 6ND.

Aquí G es el coeficiente de expansión calculado en base a los coeficientes A, B, α y β. Por ejemplo, según el análisis de la literatura, a medida que aumenta un presupuesto informático determinado, la ley de expansión de KM se inclina más a asignar el presupuesto al tamaño del modelo, mientras que la ley de expansión de Chinchilla cree que el tamaño del modelo y de los datos deben aumentarse en proporciones similares. A pesar de algunas suposiciones limitantes, estas leyes de escala proporcionan una comprensión intuitiva de los efectos de escala que pueden usarse para predecir el desempeño de los modelos de lenguaje durante el entrenamiento. Sin embargo, algunas capacidades (como el aprendizaje contextual) no se pueden predecir completamente basándose en leyes de escala y solo aparecerán después de que el modelo supere una determinada escala.

Una de las características clave de los grandes modelos de lenguaje es exhibir capacidades emergentes que los modelos de lenguaje previamente entrenados no tienen, es decir, nuevas capacidades que solo surgen después de que el modelo alcanza un cierto tamaño. Cuando surgen capacidades emergentes, el rendimiento mejora repentina y significativamente más allá de niveles aleatorios, similar a las transiciones de fase en la física. Las habilidades emergentes pueden estar relacionadas con tareas complejas y deben centrarse en habilidades generales que puedan resolver una amplia gama de tareas. La siguiente es una breve introducción a tres capacidades emergentes típicas de modelos de lenguaje grandes y modelos representativos relacionados.

Aprendizaje contextual: GPT-3 propuso esta capacidad por primera vez, es decir, solo necesita proporcionar instrucciones de lenguaje y algunos ejemplos, y el modelo puede generar el resultado esperado sin capacitación adicional. Sin embargo, esta capacidad está relacionada con la escala del modelo y necesita alcanzar una cierta cantidad de parámetros para aparecer.

Seguimiento de instrucciones: mediante el ajuste de la instrucción, los modelos de lenguaje grandes pueden generalizar tareas completamente invisibles basadas únicamente en descripciones del lenguaje. Esta capacidad mejorará significativamente cuando el modelo supere los 68 mil millones de parámetros. Los diferentes modelos también tienen diferente dominio de esta habilidad.

Razonamiento paso a paso: los modelos pequeños tienen dificultades para resolver tareas complejas que requieren un razonamiento de varios pasos, mientras que los modelos de lenguaje grandes pueden completar dichas tareas proporcionando sugerencias de la cadena de pensamiento para pasos de razonamiento intermedios. Cuando el modelo supere los 60 mil millones de parámetros, el efecto de este aviso será significativo. Diferentes tareas dependen de esta capacidad en distintos grados.

2) Tecnologías clave de grandes modelos lingüísticos.

Después de un largo período de desarrollo, los modelos de lenguajes grandes (LLM) han evolucionado hasta la etapa actual de uso general y capacidades poderosas. Los principales avances tecnológicos incluyen:

Expansión: aumentar el modelo, el tamaño de los datos y la cantidad de cálculos de entrenamiento puede mejorar significativamente las capacidades de LLM. También es importante utilizar racionalmente la ley de expansión para guiar la asignación de recursos.

Capacitación: los algoritmos de capacitación distribuida son fundamentales para entrenar con éxito modelos grandes. Varios marcos y técnicas de optimización pueden facilitar la capacitación distribuida a gran escala.

Orientación sobre habilidades: diseñar una estrategia rápida adecuada puede estimular las capacidades potenciales de LLM, pero el efecto puede ser diferente para modelos pequeños.

Ajuste de alineación: hacer que el contenido generado por LLM sea coherente con los valores humanos mediante el aprendizaje reforzado de la interacción persona-computadora.

Operación de herramientas: el uso de herramientas externas para compensar las limitaciones de LLM, similares a sus "ojos y oídos", puede ampliar el alcance de las capacidades.

Además, muchos otros factores, como las actualizaciones de hardware, han contribuido al éxito de LLM. Sin embargo, discutimos principalmente los principales enfoques técnicos y los hallazgos clave en el desarrollo de LLM.

2. Evolución técnica de los modelos de la serie GPT.

ChatGPT ha recibido una gran atención por su excelente capacidad para comunicarse con los humanos. Está desarrollado sobre la base del potente modelo GPT y sus capacidades conversacionales se han optimizado especialmente. Teniendo en cuenta el gran interés de la gente en los modelos ChatGPT y GPT, este artículo resume específicamente la evolución tecnológica de los modelos de la serie GPT en los últimos años para mejorar la comprensión del público. En términos generales, OpenAI ha pasado por las siguientes etapas en la investigación de modelos de lenguaje a gran escala:

1) Exploración temprana

Según una entrevista con el cofundador de OpenAI, Ilya Sutskever, la idea de utilizar modelos de lenguaje para implementar sistemas inteligentes se había explorado en los primeros días de OpenAI, pero el experimento en ese momento era una red neuronal recurrente (RNN). Con el surgimiento de la arquitectura Transformer, OpenAI desarrolló dos primeros modelos GPT: GPT-1 y GPT-2, que pueden considerarse como la base de los posteriores, más potentes, GPT-3 y GPT-4.

GPT-1: En 2018, OpenAI desarrolló el primer modelo GPT basado en la entonces nueva arquitectura Transformer. GPT-1 adopta la estructura del decodificador Transformer y utiliza métodos de ajuste previo no supervisado y de ajuste fino supervisados ​​para sentar las bases de los modelos GPT posteriores.

GPT-2: GPT-2 aumenta la cantidad de parámetros basados ​​​​en GPT-1, alcanzando los 15 mil millones y utiliza un conjunto de datos de páginas web más grande para el entrenamiento. Complete tareas posteriores mediante modelado de lenguaje no supervisado sin un ajuste explícito de los datos anotados.

2) Salto de capacidad

Aunque GPT-2 pretende ser un alumno general multitarea a través de entrenamiento no supervisado, su rendimiento aún es débil en comparación con los métodos de ajuste fino supervisados ​​de última generación actuales. Aunque el modelo GPT-2 es de pequeña escala, se ha utilizado ampliamente en tareas posteriores, especialmente en tareas de diálogo, después de realizar ajustes. Sobre la base de GPT-2, GPT-3 logra un gran salto en capacidades bajo una arquitectura generativa de preentrenamiento similar al expandir la escala del modelo.

GPT-3, lanzado en 2020, amplió aún más el tamaño del modelo a 175 mil millones de parámetros. El artículo GPT-3 propone formalmente el concepto de aprendizaje en contexto (ICL), que utiliza modelos de lenguaje en una muestra pequeña o en una muestra cero. ICL sigue siendo esencialmente modelado de lenguaje, pero predice la salida de texto para completar una tarea determinada. GPT-3 no solo tiene un excelente desempeño en tareas de PNL, sino que también muestra una adaptabilidad asombrosa en tareas que requieren razonamiento. Aunque el artículo GPT-3 no analiza explícitamente las capacidades emergentes, se puede observar que su salto de rendimiento puede exceder las leyes de escala básicas, lo que marca una evolución importante desde modelos de lenguaje previamente entrenados a modelos de lenguaje grandes.

3) Mejora de la capacidad

GPT-3 se convirtió en la base para que OpenAI desarrollara modelos de lenguaje más potentes, mejorando principalmente de dos maneras:

Entrenamiento utilizando datos de código: el GPT-3 original está entrenado en texto sin formato y tiene capacidades de inferencia débiles. Utilice el ajuste de código de GitHub para mejorar sus habilidades de programación y resolución de problemas matemáticos.

Alinearse con los humanos: OpenAI comenzó a investigar cómo aprender de las preferencias humanas en 2017. Utilizan métodos de aprendizaje por refuerzo para entrenar modelos de lenguaje que coincidan con las expectativas humanas. No sólo mejora la capacidad de seguir instrucciones, sino que también reduce la generación de contenido dañino. Es importante alinear los modelos del lenguaje con los valores humanos mediante el aprendizaje por refuerzo para la interacción persona-computadora.

4) Hitos importantes en los modelos lingüísticos.

Basado en exploraciones anteriores, OpenAI ha realizado dos desarrollos importantes: ChatGPT y GPT-4, que han mejorado enormemente las capacidades del sistema de IA:

ChatGPT: lanzado en noviembre de 2022, es un modelo GPT optimizado para conversaciones y el método de entrenamiento es similar a InstructGPT. Demuestra una excelente capacidad para comunicarse con las personas y un rico conocimiento. Actualmente es el robot de chat más poderoso y tiene un impacto significativo en la investigación de la IA.

GPT-4: lanzado en marzo de 2023, admite entrada multimodal, ha mejorado significativamente en comparación con GPT-3.5 y es mejor que ChatGPT en varias tareas difíciles. Con una alineación iterativa, las respuestas a problemas maliciosos también son más seguras. OpenAI emplea varias estrategias para mitigar los riesgos potenciales.

A pesar de los grandes avances, estos modelos de lenguaje todavía tienen limitaciones y requieren una optimización continua para hacerlos más potentes y seguros. OpenAI emplea una estrategia de implementación iterativa para controlar el riesgo.

3. Grandes recursos de modelos de lenguaje.

Dadas las dificultades técnicas y los requisitos de recursos informáticos para entrenar modelos de lenguaje grandes, es muy difícil desarrollar o reproducir modelos de lenguaje grandes desde cero. Un enfoque factible es realizar un desarrollo incremental o una investigación experimental basada en modelos de lenguaje existentes. A continuación se muestra un breve resumen de los recursos disponibles públicamente para desarrollar modelos de lenguaje grandes, incluidos puntos de control de modelos públicos, corpus y bibliotecas de códigos.

1. API o puntos de control de modelo disponibles públicamente

Dado el alto costo de los modelos de pre-entrenamiento, los puntos de control públicos de pre-entrenamiento son críticos para las organizaciones de investigación que trabajan en grandes modelos de lenguaje. La escala de parámetros es un factor clave a considerar al utilizar estos modelos. Para ayudar a los usuarios a elegir direcciones de investigación apropiadas basadas en recursos informáticos, los modelos públicos se dividen en dos niveles: decenas de miles de millones y cientos de miles de millones de parámetros. Además, la API pública puede utilizar directamente el modelo para realizar inferencias sin ejecutarlo localmente. Los puntos de control del modelo expuestos y las API se describen a continuación.

1) Modelos con decenas de miles de millones de parámetros.

Los modelos de lenguaje público con decenas de miles de millones de parámetros incluyen mT5, PanGu-α, T0, GPT-NeoX-20B, CodeGen, UL2, Flan-T5 y mT0, etc., con tamaños de parámetros que oscilan entre 10 y 20 mil millones. Entre ellos, Flan-T5 se puede utilizar para la investigación de ajuste de instrucciones, CodeGen está especialmente diseñado para generar código y mT0 admite múltiples idiomas. Para tareas chinas, PanGu-α funciona mejor. LLaMA es un modelo lanzado recientemente que demuestra excelentes capacidades en tareas de seguimiento de comandos. Los modelos de este tamaño suelen requerir de cientos a miles de GPU/TPU. Para estimar con precisión los recursos informáticos necesarios, se pueden utilizar métricas de volumen informático como FLOPS.

2) Modelos con cientos de miles de millones de parámetros.

Existen pocos modelos de lenguaje público con cientos de miles de millones de parámetros, principalmente OPT, OPT-IML, BLOOM, BLOOMZ, GLM y Galactica. Entre ellos, OPT se utiliza para reproducir GPT-3, BLOOM y BLOOMZ funcionan mejor en el modelado en varios idiomas y OPT-IML se ha perfeccionado. Este tipo de modelo suele requerir miles de GPU/TPU, por ejemplo, OPT utiliza 992 GPU A100 y GLM utiliza 96 nodos DGX-A100.

3) API pública para modelos de lenguaje grandes

En comparación con el uso del modelo directamente, la API proporciona una forma más conveniente de utilizar modelos de lenguaje grandes sin ejecutarlo localmente. Las API de los modelos de la serie GPT se han utilizado ampliamente, incluidas ada, babage, curie, davinci, etc. Entre ellos, davinci corresponde al modelo más grande de GPT-3. También hay una API de generación de código relacionada con Codex. La serie GPT-3.5 agrega nuevas interfaces como text-davinci-002. gpt-3.5-turbo-0301 corresponde a ChatGPT. Recientemente, también se lanzó la API de GPT-4. En términos generales, la selección de la interfaz depende de escenarios de aplicación específicos y requisitos de respuesta.

2. Corpus de uso común

A diferencia de los modelos de lenguaje pre-entrenados a pequeña escala, los modelos de lenguaje a gran escala requieren cantidades mayores y datos extensos para el entrenamiento. Para satisfacer esta necesidad, se está publicando un número cada vez mayor de conjuntos de datos disponibles públicamente para investigación. A continuación se ofrece una breve descripción general de algunos corpus de entrenamiento de modelos de lenguaje grandes de uso común, divididos en seis categorías según el tipo de contenido: Libros, CommonCrawl, Enlaces de Reddit, Wikipedia, Código, Otros. 

1) Libros

BookCorpus contiene más de 11.000 libros electrónicos que cubren una amplia gama de temas y se utiliza en los primeros modelos a pequeña escala, como GPT y GPT-2. El corpus de Gutenberg contiene más de 70.000 obras literarias de diversos tipos y actualmente es una de las mayores colecciones de libros públicos y se utiliza para entrenar modelos como MT-NLG y LLaMA. Los conjuntos de datos inéditos de Books1 y Books2 utilizados en GPT-3 son más grandes.

2)Rastreo común

CommonCrawl es una de las bases de datos de rastreadores web de código abierto más grandes y se ha utilizado ampliamente en la capacitación de modelos de lenguaje a gran escala. Los conjuntos de datos de filtrado existentes basados ​​en CommonCrawl incluyen C4, CC-Stories, CC-News y RealNews. C4 incluye cinco variantes18, a saber, en, en.noclean, realnewslike, webtextlike y multilingüe. Entre ellos, la versión en se usa para entrenar previamente T5, LaMDA, Gopher y UL2 se usan para entrenar previamente múltiples modelos; CC-Stories y CC-News son subconjuntos de datos de CommonCrawl, incluido el contenido en forma de historias; RealNews También se utiliza para entrenar previamente varios modelos de datos de entrenamiento.

3)Enlaces de Reddit

Reddit es una plataforma de redes sociales donde los usuarios pueden enviar enlaces y publicaciones. WebText es un corpus muy conocido basado en Reddit que consta de enlaces que me gustan mucho en Reddit. OpenWebText es una alternativa de código abierto fácilmente disponible. PushShift.io es un conjunto de datos que se actualiza en vivo y que incluye datos históricos desde la creación de Reddit. Proporciona utilidades útiles que permiten a los usuarios buscar, resumir y realizar análisis estadísticos preliminares de conjuntos de datos completos. Los usuarios pueden recopilar y procesar datos de Reddit fácilmente.

4)Wikipedia

Wikipedia es una enciclopedia en línea que contiene una gran cantidad de artículos de alta calidad que cubren una variedad de temas. Utilice un estilo de escritura explicativo y citas de apoyo, que abarquen muchos idiomas diferentes y una amplia gama de áreas de conocimiento. La versión en inglés de Wikipedia se usa ampliamente en la mayoría de los LLM (como GPT-3, LaMDA y LLaMA) y también está disponible en varios idiomas para su uso en entornos de varios idiomas.

5)Código

La principal fuente de recopilación de datos de código es rastrear códigos con licencias de código abierto de Internet, incluidas bibliotecas de códigos públicos con licencias de código abierto (como GitHub) y plataformas de preguntas y respuestas relacionadas con el código (como StackOverflow). Google publica el conjunto de datos de BigQuery, que contiene una gran cantidad de fragmentos de código de licencia de código abierto en varios lenguajes de programación y es un conjunto de datos de código típico. BIGQUERY utilizado por CodeGen es un subconjunto del conjunto de datos de BigQuery utilizado para entrenar versiones multilingües de CodeGen-Multi.

6)Otros

The Pile es un conjunto de datos de texto de código abierto, diverso y a gran escala (más de 800 GB de datos), que incluye libros, sitios web, códigos, artículos científicos y plataformas de redes sociales. Consta de 22 subconjuntos de alta calidad y se usa ampliamente en modelos de diferentes escalas de parámetros, como GPT-J (6B), CodeGen (16B) y Megatron-Turing NLG (530B). Además, ROOTS es un corpus grande compuesto por varios conjuntos de datos más pequeños que cubren 59 idiomas diferentes, que se utiliza para entrenar BLOOM.

Para entrenar previamente LLM, generalmente es necesario mezclar diferentes fuentes de datos, como C4, OpenWebText y The Pile, etc., y extraer datos de fuentes relacionadas (como Wikipedia y BigQuery) para enriquecer la información correspondiente en los datos previos al entrenamiento. Para comprender rápidamente las fuentes de datos utilizadas por los LLM existentes, a continuación se presentan los corpus previos a la capacitación de tres LLM representativos:

GPT-3 (175B) está entrenado en un conjunto de datos mixto que incluye CommonCrawl, WebText2, Books1, Books2 y Wikipedia.

PaLM (540B) utiliza un conjunto de datos previamente entrenado que consta de conversaciones en redes sociales, páginas web filtradas, libros, Github, Wikipedia multilingüe y noticias, que contiene un total de 780 mil millones de tokens.

LLaMA extrae datos de entrenamiento de múltiples fuentes de datos, incluidos CommonCrawl, C4, Github, Wikipedia, libros, ArXiv y StackExchange. El tamaño de los datos de entrenamiento de LLaMA (6B), LLaMA (13B) y LLaMA (32B) es de 1,0 billones de tokens, mientras que LLaMA (65B) utiliza 1,4 billones de tokens.

3. Recursos básicos de código

En esta sección, presentamos brevemente algunas bibliotecas de códigos que se pueden utilizar para desarrollar LLM. 

1)Transformadores

Transformers es una biblioteca de Python desarrollada por Hugging Face, que utiliza la arquitectura Transformer. Proporciona una API simple y fácil de usar para facilitar a los usuarios la personalización de varios modelos previos al entrenamiento. La biblioteca cuenta con una comunidad grande y activa de usuarios y desarrolladores que actualizan y mejoran periódicamente modelos y algoritmos.

2)Velocidad profunda

La biblioteca de optimización del aprendizaje profundo desarrollada por Microsoft (compatible con PyTorch) se ha utilizado para entrenar múltiples LLM, como MT NLG y BLOOM. Admite técnicas de optimización de entrenamiento distribuido, como optimización de memoria (tecnología Zero y puntos de control de gradiente) y paralelismo de canalización.

3)Megatrón-LM

Una biblioteca de aprendizaje profundo desarrollada por NVIDIA para la formación de LLM. Proporciona tecnologías de optimización de capacitación distribuida, como paralelismo de modelos y datos, capacitación de precisión mixta y FlashAttention, que pueden mejorar la eficiencia y la velocidad de la capacitación y lograr una capacitación distribuida eficiente.

4)JAX

Una biblioteca de Python desarrollada por Google para operaciones de algoritmos de aprendizaje automático de alto rendimiento. Admite el cálculo eficiente de matrices bajo aceleración de hardware y puede realizar cálculos eficientes en varios dispositivos. También admite funciones especiales como diferenciación automática y compilación en tiempo real.

5) IA colosal

Una biblioteca de aprendizaje profundo desarrollada por HPC-AI Tech para entrenar modelos de inteligencia artificial a gran escala. Basado en la implementación de PyTorch, admite estrategias de entrenamiento paralelo y el método PatrickStar para optimizar la gestión de memoria heterogénea. Recientemente se lanzó el modelo ChatGPT similar a ColossalChat (versiones 7B y 13B).

6)BMTren

La biblioteca de capacitación distribuida desarrollada por OpenBMB enfatiza el código conciso, el bajo uso de recursos y la alta disponibilidad. BMTrain ha migrado LLM comunes (como Flan T5 y GLM) a su ModelCenter y los usuarios pueden usarlos directamente.

7)MoE rápido

FastMoE es una biblioteca de capacitación específica para modelos MoE, desarrollada en base a PyTorch y centrada en la eficiencia y la facilidad de uso. Simplifica el proceso de conversión de modelos Transformer a modelos MoE y admite el entrenamiento paralelo de datos y modelos.

Además de los recursos proporcionados por los marcos de aprendizaje profundo mencionados anteriormente, otros marcos como PyTorch, TensorFlow, MXNet, PaddlePaddle, MindSpore y OneFlow también brindan soporte para algoritmos paralelos, que generalmente se usan para entrenar modelos a gran escala.

4. Recopilación de datos

LLM requiere datos de alta calidad para la capacitación previa, y las capacidades de su modelo también dependen de métodos de procesamiento previo y corpus de capacitación previa. A continuación se analiza principalmente la recopilación y el procesamiento de datos previos a la capacitación, incluidas las fuentes de datos, los métodos de procesamiento previo y el análisis del impacto en el desempeño de LLM.

1. Fuente de datos

La clave para desarrollar un LLM capaz es recopilar un gran corpus de lenguaje natural. El LLM existente mezcla varios conjuntos de datos de texto públicos como corpus previo al entrenamiento y las fuentes se dividen en texto general y texto especial. Los datos de texto generales (como páginas web, libros, textos de conversación, etc.) son de gran escala, diversos y fáciles de obtener, y la mayoría de los LLM los utilizan para mejorar sus capacidades de generalización y modelado del lenguaje. Los conjuntos de datos especializados (como datos multilingües, datos y códigos científicos, etc.) pueden brindarle a LLM la capacidad de resolver tareas especiales.

Proporción de varias fuentes de datos en los datos previos a la capacitación de LLM existentes

1) Datos de texto generales

Los datos universales de preformación son una parte integral del modelo LLM y proporcionan recursos de texto enriquecido y temas diversos. Entre ellos, tres datos textuales generales importantes incluyen páginas web, textos de conversación y libros.

Las páginas web incluyen Wikipedia, sitios web de noticias, etc., pero es necesario filtrar el contenido de baja calidad. Para mejorar la calidad de los datos, los investigadores suelen utilizar herramientas de rastreo web para rastrear grandes cantidades de datos de Internet, como CommonCrawl. Estos datos pueden contener texto de alta y baja calidad y, por lo tanto, deben filtrarse y procesarse.

El texto de diálogo puede mejorar las capacidades de diálogo de LLM y el desempeño en tareas de preguntas y respuestas. Los investigadores pueden explotar subconjuntos de corpus de conversaciones públicas o recopilar datos de conversaciones de las redes sociales en línea. Dado que los datos de una conversación a menudo implican discusiones entre varios participantes, una forma eficiente de procesarlos es convertir la conversación en una estructura de árbol, conectando cada expresión con la expresión que respondió a ella. De esta manera, un árbol de conversación entre varias partes se puede dividir en múltiples subconversaciones en el corpus previamente entrenado. Sin embargo, la introducción excesiva de datos conversacionales puede hacer que la instrucción se perciba erróneamente como el comienzo de una conversación, reduciendo así la eficacia de la instrucción.

Los libros son otra fuente importante de datos textuales generales, ya que proporcionan textos extensos más formales en comparación con otros corpus. Esto tiene beneficios potenciales para que LLM aprenda conocimientos lingüísticos, modele dependencias a largo plazo y genere textos narrativos y coherentes. Los conjuntos de datos de código abierto existentes incluyen Books3 y Bookcorpus2, que están disponibles en el conjunto de datos Pile.

2) datos de texto dedicados

Los conjuntos de datos especializados son muy útiles para mejorar las capacidades de LLM en tareas específicas. Tres tipos de datos especializados incluyen texto multilingüe, texto científico y código.

• Texto multilingüe: la integración de corpus multilingües puede mejorar las capacidades de generación y comprensión multilingüe del modelo. Por ejemplo, BLOOM y PaLM recopilan datos multilingües que contienen 46 y 122 idiomas en sus corpus previos al entrenamiento. Estos modelos exhiben un rendimiento excelente en tareas multilingües como traducción, resúmenes multilingües y respuesta a preguntas multilingües, y son consistentes con el estado de Los modelos más modernos, adaptados al idioma de destino, tienen un rendimiento comparable o incluso mejor.

• Textos científicos: El continuo crecimiento de las publicaciones científicas es testimonio de la exploración humana de la ciencia. Para mejorar la comprensión del conocimiento científico por parte de LLM, se pueden incorporar corpus científicos al corpus de preentrenamiento del modelo. Al realizar un entrenamiento previo en una gran cantidad de textos científicos, LLM puede lograr un rendimiento excelente en tareas científicas y de razonamiento. El trabajo existente recopila principalmente artículos de arXiv, libros de texto científicos, páginas web de matemáticas y otros recursos científicos relacionados. Debido a la complejidad de los datos en los campos científicos, como los símbolos matemáticos y las secuencias de proteínas, a menudo se requieren técnicas específicas de tokenización y preprocesamiento para convertir estos diferentes formatos de datos en una forma unificada que pueda ser procesada por modelos de lenguaje.

• Código: La redacción de programas ha recibido amplia atención en el mundo académico y en las aplicaciones PLM, pero generar programas precisos y de alta calidad sigue siendo un desafío. Investigaciones recientes muestran que la capacitación previa de LLM en un gran corpus de código puede mejorar la calidad de la programación, pasando casos de prueba unitaria o resolviendo problemas de programación de competencia. Hay dos fuentes principales de corpus de código para la formación previa a un LLM: comunidades de preguntas y respuestas de programación y repositorios de software de código abierto. A diferencia del texto en lenguaje natural, el código se presenta en un formato de lenguaje de programación, correspondiente a dependencias a larga distancia y una lógica de ejecución precisa. Investigaciones recientes muestran que el código de entrenamiento puede ser la fuente de capacidades de inferencia complejas, y formatear las tareas de inferencia en código también puede ayudar a LLM a generar resultados más precisos.

2. Preprocesamiento de datos

Después de recopilar una gran cantidad de datos de texto, es necesario preprocesarlos, especialmente para eliminar datos ruidosos, redundantes, irrelevantes y potencialmente dañinos, porque estos datos pueden afectar la capacidad y el rendimiento de LLM. A continuación se revisan las estrategias de preprocesamiento de datos para mejorar la calidad de los datos. En la figura se ilustra el flujo típico de preprocesamiento de los datos previos al entrenamiento para LLM.

Un diagrama de flujo típico para el preprocesamiento de datos previos al entrenamiento

1) Filtrado de calidad

Para eliminar datos de baja calidad, los trabajos existentes suelen adoptar métodos basados ​​en clasificadores o heurísticos. Los métodos basados ​​en clasificadores utilizan texto de alta calidad para entrenar un clasificador y predecir una puntuación para cada dato, filtrando así datos de baja calidad. Pero estos métodos pueden eliminar textos de alta calidad de dialectos, lenguas habladas y sociolingüísticas, lo que genera sesgos y reduce la diversidad. Los métodos basados ​​en heurística eliminan el texto de baja calidad mediante el diseño de un conjunto de reglas que se pueden resumir en: eliminar texto repetitivo, irrelevante o incompleto; eliminar faltas de ortografía, errores gramaticales o palabras inusuales; eliminar la falta de contexto El texto del mensaje, etc.

2) Eliminar duplicados

Las investigaciones existentes han descubierto que los datos repetidos en el corpus afectarán la diversidad del modelo y la estabilidad del proceso de entrenamiento, por lo que es necesario deduplicar el corpus previo al entrenamiento. Específicamente, la duplicación se puede eliminar en diferentes granularidades, como nivel de oración, nivel de documento y nivel de conjunto de datos. A nivel de oración, se deben eliminar oraciones de baja calidad que contengan palabras y frases repetidas; a nivel de documento, se pueden eliminar documentos duplicados con contenido similar detectando proporciones de superposición; al mismo tiempo, superposición entre el conjunto de entrenamiento y el conjunto de evaluación. es necesario prevenir. Los tres niveles de deduplicación pueden ayudar a mejorar la formación de LLM y deben utilizarse juntos.

3) Eliminación de privacidad

La mayoría de los datos de texto previos al entrenamiento provienen de fuentes en línea, incluido el contenido generado por el usuario que involucra información personal o confidencial, lo que puede aumentar el riesgo de filtraciones de privacidad. Por lo tanto, la información de identificación personal (PII) debe eliminarse del corpus previo al entrenamiento. Un enfoque sencillo y eficaz es utilizar métodos basados ​​en reglas, como la identificación de palabras clave, para detectar y eliminar información confidencial como la PII. Además, los investigadores también descubrieron que la vulnerabilidad de LLM a los ataques a la privacidad puede atribuirse a la presencia de datos PII duplicados en el corpus previo al entrenamiento. Por lo tanto, la deduplicación también puede reducir los riesgos de privacidad.

4) participio

La segmentación de palabras es un paso clave en el preprocesamiento de datos, que divide el texto original en secuencias de palabras como entrada para LLM. Si bien los tokenizadores existentes son convenientes, es más eficiente utilizar tokenizadores diseñados para corpus previamente entrenados, especialmente para corpus de múltiples dominios, idiomas y formatos. Varios LLM recientes utilizan SentencePiece para entrenar tokenizadores personalizados para corpus previos al entrenamiento y utilizan el algoritmo BPE para garantizar que no se pierda información. Sin embargo, cabe señalar que la tecnología de normalización puede reducir el rendimiento de la segmentación de palabras.

3. El impacto de los datos previos al entrenamiento en modelos de lenguaje grandes

A diferencia del PLM a pequeña escala, el LLM a gran escala generalmente no puede realizar múltiples iteraciones previas al entrenamiento, por lo que es muy importante preparar un corpus previo adecuado antes del entrenamiento. A continuación, discutiremos cómo factores como la calidad y distribución del corpus previo a la capacitación afectan el desempeño de LLM.

1) Fuentes mixtas

Los datos previos al entrenamiento de diferentes campos o escenarios tienen diferentes características de lenguaje o conocimiento semántico, y la distribución de los datos previos al entrenamiento debe establecerse cuidadosamente al mezclar datos de diferentes fuentes. Los experimentos de Gopher muestran que aumentar la proporción de datos del libro puede mejorar la capacidad del modelo para capturar dependencias a largo plazo del texto, y aumentar la proporción del conjunto de datos C4 mejorará el rendimiento del conjunto de datos de verificación C4. Sin embargo, entrenar demasiados datos solo en un determinado campo afectará la capacidad de generalización de LLM en otros campos. Por lo tanto, se recomienda que los investigadores determinen la proporción de datos de diferentes dominios en el corpus previo a la capacitación para desarrollar un LLM que satisfaga mejor las necesidades.

2) La cantidad de datos previos al entrenamiento.

Para preparar previamente un LLM eficaz, es importante recopilar suficientes datos de alta calidad. Las investigaciones existentes han descubierto que a medida que aumenta el tamaño del parámetro LLM, se necesitan más datos para entrenar el modelo. Muchos LLM existentes sufren de una formación subóptima debido a la falta de datos previos a la formación suficientes. Amplios experimentos muestran que es necesario utilizar escalas iguales de parámetros del modelo y tokens de entrenamiento para un presupuesto informático determinado. Los estudios de LLaMA muestran que los modelos más pequeños pueden lograr un buen rendimiento utilizando más datos y entrenando durante períodos de tiempo más largos. Por lo tanto, se recomienda a los investigadores que se centren en la cantidad de datos de alta calidad al entrenar modelos adecuadamente.

3) Calidad de los datos previos al entrenamiento

Las investigaciones muestran que el entrenamiento previo en corpus de baja calidad puede perjudicar el rendimiento del modelo. Para desarrollar un LLM de buen rendimiento, tanto la cantidad como la calidad de los datos de capacitación recopilados son cruciales. Investigaciones recientes han demostrado el impacto de la calidad de los datos en el desempeño de las tareas posteriores. Al comparar el rendimiento de los modelos entrenados en corpus filtrados y sin filtrar, se llega a la misma conclusión de que el entrenamiento previo de LLM con datos limpios mejora el rendimiento. Más concretamente, la duplicación de datos puede conducir al "fenómeno de doble caída" e incluso desestabilizar el proceso de formación. Además, los datos duplicados reducirán la capacidad de LLM para copiar desde el contexto, lo que afectará aún más la capacidad de generalización de LLM en ICL. Por lo tanto, es necesario que los investigadores preprocesen cuidadosamente el corpus de preentrenamiento para mejorar la estabilidad del proceso de entrenamiento y evitar su impacto en el rendimiento del modelo.

5. Adaptación y ajuste de modelos de lenguaje grandes.

El LLM previamente capacitado puede obtener capacidades generales para resolver diversas tareas, y las capacidades del LLM se pueden adaptar aún más a objetivos específicos. A continuación se presentarán dos métodos para adaptar el LLM previamente capacitado: ajuste de instrucciones y ajuste de alineación. El primero tiene como objetivo mejorar las capacidades del LLM, mientras que el segundo tiene como objetivo alinear el comportamiento del LLM con los valores o preferencias humanos.

1. Ajuste de instrucciones 

El ajuste de instrucciones es un método para ajustar un LLM previamente capacitado en una colección de ejemplos en formato de lenguaje natural. Después de recopilar o crear instancias del formato de instrucción, ajuste el LLM utilizando un enfoque supervisado, como el entrenamiento mediante una pérdida de secuencia a secuencia. Después de realizar ajustes, LLM puede demostrar la capacidad de generalizar a tareas invisibles y funcionar bien incluso en escenarios multilingües.

1) Construcción de instancias formateadas

Ejemplos de formatos de instrucción incluyen descripciones de tareas, entrada y salida, y ejemplos. Las investigaciones existentes han publicado datos comentados en formato de lenguaje natural, que es un recurso público importante.

Formateo de conjuntos de datos existentes: varios esfuerzos de investigación iniciales recopilaron instancias en diferentes dominios para crear conjuntos de datos de capacitación multitarea supervisados ​​para el aprendizaje multitarea. Es decir, se utilizan descripciones de tareas en lenguaje natural escritas por humanos para agregar formato a estos conjuntos de datos para guiar el modelo de lenguaje para comprender diferentes tareas. Por ejemplo, cada tarea de preguntas y respuestas tiene una descripción que dice "Responda las siguientes preguntas". Se ha demostrado que la instrucción es un factor clave en la capacidad de generalización de las tareas de modelado del lenguaje. Para generar mejores datos de anotación para el ajuste de instrucciones, algunos trabajos utilizan el método de entrada y salida inversa, es decir, revertir las instrucciones de diseño de entrada y salida existentes. También hay trabajos que utilizan plantillas heurísticas para convertir grandes cantidades de texto sin etiquetar en instancias etiquetadas.

Formateo de las necesidades humanas: aunque una gran cantidad de datos de entrenamiento se han formateado agregando instrucciones, estos datos provienen principalmente de conjuntos de datos públicos de PNL y carecen de diversidad y coincidencia con las necesidades reales. Para resolver este problema, algunos trabajos adoptan consultas reales enviadas por los usuarios a la API de OpenAI como descripciones de tareas. Estas consultas, expresadas en lenguaje natural, son muy adecuadas para guiar la capacidad del modelo de lenguaje para seguir instrucciones. Además, se pide a los anotadores que escriban varias instrucciones para tareas de la vida real, como generación abierta, preguntas y respuestas, lluvia de ideas y chat. Luego, deje que otros anotadores respondan directamente basándose en estas instrucciones como resultado. Finalmente, la instrucción y el resultado deseado se emparejan como una instancia de entrenamiento. En particular, estas tareas del mundo real también se utilizan para ajustar la alineación. Otros trabajos introducen instancias existentes en modelos de lenguaje para generar instrucciones y datos para reducir la carga de la anotación manual y crear datos de entrenamiento más diversos.

Factores clave en la creación de instancias: la calidad de las instancias de instrucción tiene un impacto significativo en el rendimiento del modelo. Algunos de los factores clave en la construcción de un ejemplo se analizan aquí.

Diagrama de una instancia de formato y dos formas de construir una instancia de formato de instrucción

Aumente la cantidad de instrucciones: una gran cantidad de resultados de investigaciones muestran que ampliar la cantidad de tareas puede mejorar significativamente la capacidad de generalización de modelos de lenguaje grandes. A medida que aumenta el número de tareas, el rendimiento del modelo continúa mejorando inicialmente, pero cuando el número de tareas alcanza un cierto nivel, la mejora del rendimiento del modelo se vuelve mínima. Una conjetura razonable es que un cierto número de tareas representativas pueden proporcionar conocimientos relativamente suficientes, y agregar más tareas tendrá beneficios limitados. Además, también es beneficioso mejorar la diversidad de tareas desde múltiples dimensiones, como la duración, la estructura y la creatividad de las descripciones de las tareas. Con respecto a la cantidad de instancias requeridas para cada tarea, investigaciones anteriores han encontrado que una pequeña cantidad de instancias generalmente puede saturar el rendimiento de generalización del modelo. Sin embargo, aumentar significativamente el número de instancias (por ejemplo, cientos) para algunas tareas puede provocar un sobreajuste, lo que afectará el rendimiento del modelo.

El diseño del formato de instrucción también es importante: a menudo se pueden agregar descripciones de tareas y ejemplos a los pares de entrada-salida. Una cantidad adecuada de ejemplos facilita la comprensión del modelo y reduce la sensibilidad a la ingeniería de instrucción. Pero agregar demasiado contenido irrelevante puede resultar contraproducente. Las instrucciones que contienen razonamiento encadenado pueden mejorar las capacidades de razonamiento del modelo.

2) Estrategia de ajuste de instrucciones

A diferencia del entrenamiento previo, el ajuste de las instrucciones es generalmente más eficiente porque solo requiere una pequeña cantidad de ejemplos para el entrenamiento. El ajuste fino de las instrucciones puede considerarse como un proceso de entrenamiento supervisado, y su proceso de optimización tiene algunas diferencias con el entrenamiento previo, como la función objetivo del entrenamiento (como la función de pérdida de secuencia a secuencia) y la configuración de los parámetros de optimización (como lotes más pequeños). tamaño y tasa de aprendizaje). Estos detalles requieren especial atención en la práctica. Además de optimizar la configuración de los parámetros, el ajuste fino de las instrucciones también debe considerar los dos aspectos importantes siguientes:

Equilibrio de distribución de datos: dado que se trata de una combinación de múltiples tareas, es necesario equilibrar las proporciones de datos de diferentes tareas. Un enfoque es combinar todos los datos y la muestra proporcionalmente. Por lo general, a los datos de alta calidad, como FLAN, se les asigna una proporción de muestreo más alta y se establece una capacidad máxima para limitar el número total de muestras para evitar que grandes conjuntos de datos ocupen el conjunto de muestreo.

Combinado con entrenamiento previo: algunos métodos agregan números de entrenamiento previo como regularización en el ajuste de instrucciones. También hay métodos que no se dividen en etapas, sino que utilizan métodos de aprendizaje de tareas múltiples para entrenar simultáneamente datos de preentrenamiento y datos de formato de instrucción desde cero. Algunos modelos también utilizan datos de instrucción como una pequeña parte del corpus de preentrenamiento para obtener las ventajas del preentrenamiento y el ajuste de la instrucción al mismo tiempo.

3) El efecto del ajuste de las instrucciones

El ajuste de la instrucción tiene los dos efectos principales siguientes en los modelos de lenguaje:

Mejora del rendimiento: el ajuste fino de las instrucciones puede mejorar significativamente la capacidad de los modelos de lenguaje de diferentes escalas, incluso el ajuste fino en conjuntos de datos pequeños tiene un efecto significativo. El modelo pequeño perfeccionado a veces incluso supera al modelo grande original. El ajuste de la instrucción proporciona una forma general y eficiente de mejorar las capacidades de los modelos de lenguaje existentes.

Generalización de tareas: el ajuste de instrucciones le da al modelo la capacidad de seguir instrucciones del lenguaje natural humano para completar tareas y puede generalizar incluso tareas invisibles. Se ha demostrado que mejora el rendimiento del modelo en tareas tanto visibles como invisibles. El ajuste de la instrucción también puede ayudar a aliviar algunas de las debilidades de los modelos lingüísticos y mejorar la capacidad para resolver tareas del mundo real. El modelo ajustado puede generalizar la capacidad de las tareas en inglés a otras tareas relacionadas con el idioma e incluso lograr un desempeño satisfactorio en tareas en varios idiomas utilizando solo instrucciones en inglés.

2. Ajuste de alineación

Esta sección primero presenta los antecedentes del ajuste de alineación, incluidas definiciones y criterios de evaluación; luego se centra en los métodos de recopilación de datos de retroalimentación humana para alinear modelos de lenguaje; y finalmente analiza las tecnologías clave del uso de retroalimentación humana para el aprendizaje por refuerzo para lograr una alineación fina. -Afinación.

1) Alinear antecedentes y estándares ajustados

Los modelos de lenguaje han demostrado poderosas capacidades en muchas tareas de procesamiento del lenguaje natural, pero a veces pueden exhibir comportamientos no deseados, como generar información falsa, perseguir objetivos inexactos y producir resultados dañinos, engañosos o sesgados. El objetivo de los modelos de lenguaje previamente entrenados es el modelado del lenguaje, que no tiene en cuenta los valores humanos, por lo que se requiere un ajuste fino de la alineación para que el modelo se comporte de acuerdo con las expectativas humanas.

Los criterios para el ajuste de la alineación son diferentes del preentrenamiento y otros ajustes y son más subjetivos y complejos, como utilidad, honestidad e inofensividad. Es difícil que estos estándares sirvan directamente como objetivos de optimización y requieren tecnologías específicas para lograrlos. La utilidad requiere que el modelo resuelva los problemas del usuario y responda preguntas de manera concisa y eficiente, y demuestre la capacidad de hacer preguntas apropiadas para obtener más información. Definir y medir la utilidad es un desafío; la honestidad requiere proporcionar contenido preciso sin inventar ni comunicar incertidumbre. Relativamente más objetivo y puede depender menos de mano de obra; la inofensividad requiere no generar lenguaje ofensivo o discriminatorio, detectar y rechazar solicitudes maliciosas, y depende del contexto de uso.

2) Recopilación de comentarios humanos

Elegir el anotador adecuado es muy importante, ya que requiere hablantes nativos con un alto nivel de educación y una sólida capacidad de inglés, preferiblemente con calificaciones académicas relevantes. También es necesario evaluar la coherencia entre el resultado del anotador y las expectativas de los investigadores, seleccionar a la persona con la mayor coherencia para el trabajo de anotación y proporcionar orientación detallada durante el proceso de anotación. Hay tres formas principales de recopilar comentarios humanos:

Método basado en clasificación: permita que el anotador clasifique varios resultados de salida candidatos generados por el modelo para obtener una clasificación de preferencia y ajuste el modelo para favorecer resultados de clasificación más alta según esta clasificación. Se puede obtener información de preferencias más rica que seleccionando sólo un mejor resultado.

Enfoque basado en preguntas: los investigadores diseñan preguntas específicas que los anotadores deben responder para evaluar los resultados del modelo, y el diseño de la pregunta debe cubrir varios criterios de alineación. Puede obtener comentarios más detallados que ordenar.

Enfoque basado en reglas: los investigadores formulan una serie de reglas para probar si el resultado del modelo viola estas reglas, y el anotador debe realizar una puntuación de regla cuantitativa según el grado de violación. Se encuentran disponibles comentarios directos sobre el cumplimiento de los estándares de alineación.

El aprendizaje por refuerzo es una técnica importante en el ajuste de la alineación, que puede aprender y optimizar el modelo para lograr estándares de alineación basados ​​en la retroalimentación humana. Los métodos de aprendizaje por refuerzo basados ​​en la retroalimentación humana se analizan en detalle a continuación.

Flujo de trabajo del algoritmo RLHF

3) Aprendizaje por refuerzo basado en retroalimentación humana

Para garantizar que el LLM sea coherente con los valores humanos, se han propuesto métodos para ajustar el LLM utilizando datos de retroalimentación humana recopilados, llamados RLHF. Este método utiliza algoritmos de aprendizaje por refuerzo (como PPO) para adaptar LLM a la retroalimentación humana mediante el aprendizaje de un modelo de recompensa. Este enfoque incorpora humanos al ciclo de capacitación para desarrollar buenos LLM como InstructGPT.

Sistemas de aprendizaje por refuerzo basados ​​en retroalimentación humana: un PLM suele ser un modelo generativo que se inicializa utilizando parámetros de PLM existentes. El modelo de recompensa proporciona señales de orientación que reflejan la preferencia humana por el texto generado por LM (modelo de lenguaje). El trabajo existente generalmente adopta modelos de recompensa con diferentes escalas de parámetros del LM (modelo de lenguaje) para alinearlos. Finalmente, para optimizar PLM utilizando señales del modelo de recompensa, se diseña un algoritmo RL específico para ajustar modelos a gran escala. Específicamente, PPO es un algoritmo de alineación de RL ampliamente utilizado en trabajos existentes.

Pasos clave en el aprendizaje por refuerzo basado en la retroalimentación humana:

Ajuste fino supervisado: recopile un conjunto de datos supervisados ​​que contenga sugerencias de entrada y resultados deseados para ajustar el LM. Por ejemplo, InstructGPT requiere anotadores humanos para escribir indicaciones y resultados deseados.

Modelo de recompensa de entrenamiento: entrene al RM utilizando datos de retroalimentación humana, genere una cierta cantidad de texto de salida e invite a anotadores humanos a etiquetar las preferencias para estos pares de entrada-salida. Finalmente, el RM está entrenado para predecir el resultado de las preferencias humanas.

Ajuste fino del aprendizaje por refuerzo: el ajuste fino de la alineación de LM se formaliza como un problema de RL, donde la política la proporciona PLM, el espacio de acción es el vocabulario de LM, el estado es la secuencia de tokens generada actualmente y la recompensa es proporcionado por RM. Se agrega un término de penalización a la función de recompensa para evitar desviaciones del modelo inicial.

3. Ajuste eficiente

Esta sección analiza cómo ajustar modelos grandes (como Transformers) de manera eficiente. A continuación, revisaremos varios métodos representativos de ajuste fino de parámetros eficientes y resumiremos el trabajo existente sobre LLM de ajuste fino de parámetros eficientes.

1) Método eficiente de ajuste de parámetros

Varios métodos principales para un ajuste eficiente de los parámetros del modelo de lenguaje Transformer:

Ajuste fino del adaptador: inserte un pequeño módulo adaptador en el modelo Transformer para comprimir y mapear vectores de características. Los adaptadores se pueden conectar en serie o en paralelo después de las capas de atención y retroalimentación. Durante el ajuste fino, solo se optimizan los parámetros del adaptador y se corrigen los parámetros del modelo de lenguaje original.

Ajuste de prefijo: agregue un conjunto de vectores de prefijo entrenables delante de cada capa de Transformer como parámetros adicionales específicos de la tarea. Utilice trucos de reparametrización para aprender matrices pequeñas que asignan prefijos, en lugar de optimizarlas directamente. Solo los parámetros de prefijo están optimizados para tareas posteriores.

Ajuste de sugerencias: agregue un token de sugerencia suave a la capa de entrada y agréguelo al texto de entrada en forma de incrustación. Sólo las incrustaciones de sugerencias están optimizadas para tareas específicas. Aproveche el diseño de forma libre del mensaje.

Adaptación de rango bajo: se utiliza una matriz de factorización de rango bajo para aproximar la matriz de actualización de parámetros de red para cada capa. Los parámetros originales son fijos y solo se entrenan dos pequeñas matrices adaptables en la descomposición de bajo rango.

Cada método tiene diferentes ventajas, pero el punto común es que solo unos pocos parámetros se optimizan para adaptarse a las tareas posteriores, y la mayoría de los parámetros del modelo de lenguaje se fijan para lograr un ajuste fino eficiente de los parámetros.

2) Ajuste eficiente de parámetros en modelos de lenguaje grandes

Con el surgimiento de los modelos de lenguaje grande (LLM), los investigadores están prestando cada vez más atención a métodos de ajuste eficientes para desarrollar métodos de adaptación más livianos y adecuados para diversas tareas posteriores. Entre ellos, el método LoRA se usa ampliamente en LLM de código abierto (como LLaMA y BLOOM) para lograr un ajuste eficiente de los parámetros. LLaMA y sus variantes han atraído mucha atención debido a su eficiente ajuste de parámetros. Por ejemplo, Alpaca-LoRA es una versión ligera y perfeccionada de Alpaca, un modelo LLaMA perfeccionado de 7 mil millones de parámetros que contiene 52.000 demostraciones de seguimiento de instrucciones humanas. Para Alpaca-LoRA, se ha realizado una exploración exhaustiva en diferentes idiomas y tamaños de modelos.

Además, el método LLaMA-Adapter inserta vectores de referencia que se pueden aprender en cada capa de Transformer, donde se propone una atención inicializada en cero para aliviar el impacto de los vectores de referencia que no se ajustan lo suficiente, mejorando así el efecto de entrenamiento. Este enfoque también se ha extendido a entornos multimodales, como la respuesta visual a preguntas.

6. Resumen y dirección futura

Comprender e interpretar las capacidades emergentes de los modelos lingüísticos es una cuestión importante pero desafiante. A medida que aumenta el tamaño del modelo, aparecerán repentinamente capacidades como el razonamiento en cadena, pero el mecanismo aún no está claro. Explorar los factores que influyen y las explicaciones teóricas de la capacidad emergente es un punto candente de investigación actual. Sin embargo, es necesario establecer teorías y principios más formales, como explicar los modelos de lenguaje desde la perspectiva de sistemas complejos. Interpretar las capacidades y el comportamiento de los modelos lingüísticos sigue siendo una cuestión fundamental que vale la pena explorar y es clave para desarrollar la próxima generación de modelos. Se necesita una perspectiva interdisciplinaria para obtener una comprensión y explicación más profundas. 

Construir variantes de Transformer más eficientes y mitigar el olvido catastrófico son dos direcciones importantes para mejorar la arquitectura del modelo de lenguaje en el futuro. Debido a la alta complejidad de la autoatención estándar, es necesario explorar mecanismos de atención más eficientes. Además, al ajustar un modelo de lenguaje, el conocimiento original puede ser fácilmente sobrescrito por nuevos datos y olvidado. Por lo tanto, es necesario introducir mecanismos o módulos más flexibles para admitir las actualizaciones de datos del modelo y la especialización de tareas, manteniendo al mismo tiempo las capacidades generales originales. Ampliar las arquitecturas existentes para adaptarlas a nuevas tareas sin olvidar los conocimientos antiguos es un desafío clave para los modelos de lenguaje.

A pesar de sus poderosas capacidades, los modelos de lenguaje grandes todavía enfrentan desafíos de seguridad similares a los de los modelos pequeños, como generar mensajes de error y ser explotados para producir contenido dañino. La principal contramedida es la optimización de la alineación mediante retroalimentación humana, pero los métodos actuales de aprendizaje por refuerzo dependen en gran medida de una gran cantidad de anotaciones humanas de alta calidad.

A medida que los modelos de lenguaje a gran escala (LLM) demuestran potentes capacidades en diversas tareas, se utilizan ampliamente en diversas aplicaciones del mundo real, incluidas tareas específicas de seguir instrucciones en lenguaje natural. Como avance importante, ChatGPT ha cambiado la forma en que las personas obtienen información y se ha reflejado en el lanzamiento del "Nuevo Bing". En un futuro próximo, es previsible que el LLM tenga un impacto significativo en la tecnología de recuperación de información, incluidos los motores de búsqueda y los sistemas de recomendación. Además, se promoverá ampliamente el desarrollo y uso de asistentes de información inteligentes con la actualización de la tecnología LLM. Desde una perspectiva más amplia, esta ola de innovación tecnológica formará un ecosistema de aplicaciones respaldado por LLM, como el soporte de complementos de ChatGPT, que está estrechamente relacionado con la vida humana.

La situación actual del desarrollo de la potencia informática de mi país.

Con el fin de promover la construcción de infraestructura de potencia informática y promover la transformación digital en todos los ámbitos de la vida, el Ministerio de Industria y Tecnología de la Información y el Gobierno Popular de la Región Autónoma Hui de Ningxia celebraron la Conferencia (Infraestructura) de Potencia Informática de China 2023 en Yinchuan. , Ningxia del 18 al 19 de agosto. La conferencia tiene como objetivo continuar promoviendo la profunda integración de la economía digital y la economía real e inyectar un fuerte impulso al desarrollo de alta calidad.

1. El desarrollo de la IA continúa profundizándose, impulsando la aceleración de la construcción de infraestructura informática.

El Ministerio de Industria y Tecnología de la Información se ha comprometido a promover la construcción de infraestructura de potencia informática en los últimos años y continúa fortaleciendo el diseño de alto nivel de potencia informática. Han publicado una serie de documentos de política, como el "14º Plan Quinquenal para el Desarrollo de la Industria de la Información y las Comunicaciones" y el "Plan de Acción Trienal para el Desarrollo de Nuevos Centros de Datos" para optimizar la potencia informática nacional. diseñar y promover la construcción y aplicación de infraestructura de potencia informática. El Ministerio de Industria y Tecnología de la Información también planea publicar documentos de políticas basados ​​en los últimos desarrollos en la industria de la energía informática para promover el desarrollo de alta calidad de la infraestructura de energía informática y mejorar las capacidades de suministro de energía informática. Estas medidas han acelerado la construcción de infraestructura informática y han sentado una base sólida para el desarrollo de la economía digital.

En la Conferencia China Computing Power de 2023, se señalaron dos aspectos importantes de las necesidades de desarrollo. Por un lado, es necesario mejorar las capacidades de innovación independiente, promover la innovación en arquitectura informática, métodos y algoritmos informáticos, fortalecer la investigación y el desarrollo de productos clave como CPU, GPU y servidores, y acelerar la aplicación de nuevas tecnologías y productos. . Por otro lado, es necesario fortalecer la construcción del ecosistema de software y hardware relacionado con la potencia informática, mejorar el nivel avanzado de la base industrial, promover el desarrollo coordinado de las fases anterior y posterior de la cadena industrial y construir conjuntamente un buena ecología del desarrollo.

A finales de 2022, mi país tiene más de 6,5 millones de racks estándar, con una escala de potencia informática total de 180 EFLOPS, solo superada por Estados Unidos, y una escala de almacenamiento total de más de 1000 EB (1 billón de GB). Aprovechando la ola del desarrollo de la inteligencia artificial, China continúa fortaleciendo la investigación y el desarrollo de productos clave como CPU, GPU y servidores. Se espera que el impulso del desarrollo de la potencia informática continúe aumentando, y los flujos ascendentes y descendentes de la informática nacional. Se espera que la cadena de la industria eléctrica marque el comienzo de un rápido desarrollo conjunto.

Desarrollo de escenarios de aplicaciones de IA en China

La industria de la inteligencia artificial de China ha logrado avances significativos en 2022, con un aumento continuo de la penetración de aplicaciones y la expansión de los escenarios de aplicación. Especialmente en industrias como las finanzas y las telecomunicaciones, la penetración de las aplicaciones de inteligencia artificial ha aumentado significativamente. La aplicación generalizada de servicios de atención al cliente inteligentes, robots físicos, puntos de venta inteligentes y puntos de acceso a la nube ha aumentado la tasa de penetración de la inteligencia artificial en la industria financiera al 62%; mientras que la tasa de penetración en la industria de las telecomunicaciones ha aumentado del 45% al ​​51%. y la tecnología de inteligencia artificial es la siguiente. La construcción de una generación de redes inteligentes ha brindado un apoyo importante. Según la Corporación Internacional de Datos (IDC), para finales de 2023, el 50% de la cadena de suministro manufacturera de China utilizará tecnología de inteligencia artificial. A medida que pase el tiempo, la implementación de escenarios inteligentes en diversas industrias mostrará una tendencia más profunda y amplia.

Tasa de penetración de la industria de la inteligencia artificial (%)

Con el auge de los grandes modelos en el campo de la inteligencia artificial, la demanda de potencia informática inteligente ha mostrado una tendencia de crecimiento geométrico. Los gigantes de Internet y los gigantes tecnológicos de China han lanzado modelos a gran escala de desarrollo propio, como el modelo a gran escala Wenxin de Baidu, el modelo a gran escala Pangu de Huawei y el modelo a gran escala Tongyi de Alibaba. Estos grandes modelos tienen cientos de miles de millones o incluso billones de parámetros y requieren una gran cantidad de datos de entrenamiento de alta calidad y un enorme soporte de potencia informática. Con la creciente complejidad de los modelos grandes, el rápido crecimiento de la escala de datos y la continua expansión y profundización de los escenarios de aplicación, la demanda y la escala de la potencia informática inteligente seguramente marcarán el comienzo de un crecimiento explosivo en los próximos años. Según estimaciones de OpenAI, desde 2012, la potencia informática necesaria para entrenar los mejores modelos de IA del mundo se ha duplicado cada 3 o 4 meses, con una tasa de crecimiento anual de hasta 10 veces.

Requisitos de potencia informática para el entrenamiento de modelos grandes

La escala de la potencia informática inteligente continúa expandiéndose y se ha llegado a un consenso para construir una infraestructura de potencia informática. Según el "Informe de evaluación del desarrollo de la potencia informática de la inteligencia artificial de China 2022-2023" publicado conjuntamente por IDC e Inspur Information, la potencia informática de la inteligencia artificial de China seguirá creciendo rápidamente. A partir de 2022, la escala de potencia de computación inteligente de China alcanzará los 268 exabytes por segundo (EFLOPS), y se estima que para 2026, la escala de potencia de computación inteligente de China alcanzará 1271,4 EFLOPS, y se espera que la tasa de crecimiento compuesto en los próximos cinco años sea 52,3%, mientras que la tasa de crecimiento compuesta de la escala de potencia informática general es del 18,5%. A nivel nacional, se han lanzado planes para construir nodos de centros de potencia informática nacionales en ocho regiones, y se planean 10 grupos de centros de datos nacionales para lograr una integración efectiva de recursos, promover la reestructuración industrial y construir una potencia informática y una infraestructura de algoritmos más sólida.

Escala y pronóstico de potencia de computación inteligente de China (EFLOPS)

2. Existe una brecha de tijera entre la demanda de potencia informática y las capacidades de los chips. El desarrollo de la IA impondrá mayores requisitos al rendimiento de los chips.

Debido a las necesidades de diversos escenarios de aplicaciones de inteligencia artificial, la potencia informática tradicional de propósito general basada en CPU ya no es suficiente para satisfacer los requisitos. Por lo tanto, las soluciones informáticas heterogéneas que utilizan CPU y chips de IA (como GPU, FPGA y ASIC) se han convertido en la principal solución para la informática inteligente actual y futura. Las soluciones informáticas heterogéneas requieren una gran cantidad de chips de IA, que tienen excelentes capacidades de computación paralela y un alto ancho de banda de interconexión, lo que puede maximizar la eficiencia del soporte de la computación de IA. Según las previsiones del Instituto de Investigación Industrial Qianzhan, el mercado de chips de inteligencia artificial de China seguirá creciendo entre 2023 y 2027. Para 2024, el tamaño del mercado de chips de inteligencia artificial de China superará los 100 mil millones de yuanes; para 2027, el tamaño del mercado alcanzará los 288,19 mil millones de yuanes.

 Previsión del tamaño del mercado de chips de inteligencia artificial de China (100 millones de yuanes)

La competencia por la potencia informática de los chips de IA está en pleno apogeo y varias empresas han lanzado nuevos productos. El 13 de junio, AMD lanzó una nueva GPU de inteligencia artificial Instinct MI300 y planea enviarla a algunos clientes a finales de este año. Este procesador es una versión de AMD optimizada para modelos de lenguajes grandes, con un asombroso número de 153 mil millones de transistores, 192 GB de memoria y 5,2 TB/s de ancho de banda de memoria, así como 896 GB/s de ancho de banda Infinity Fabric. El 8 de agosto, NVIDIA anunció el lanzamiento de la plataforma NVIDIA GH200 Grace Hopper de próxima generación, el primer chip GPU del mundo equipado con memoria HBM3e. La memoria HBM3e permitirá que la GH200 de próxima generación ejecute modelos de IA 3,5 veces más rápido que el actual. Estas GPU de alta capacidad ayudan a reducir los costos de entrenamiento de IA.

Nvidia GH200

Los líderes de la industria son principalmente europeos, estadounidenses y japoneses, y la sustitución interna es imperativa. Según datos del Instituto de Investigación Industrial Zhongyan Puhua, el top ten actual de la industria mundial de chips de inteligencia artificial está dominado por empresas europeas, estadounidenses, coreanas y japonesas, siendo las tres primeras Nvidia, Intel e IBM. Las empresas nacionales de chips como Huawei HiSilicon ocuparon el puesto 12, Cambrian el 23 y Horizon Robotics el 24. En el panorama competitivo actual, con el desarrollo acelerado de modelos a gran escala nacionales y extranjeros y la integración de categorías verticales, los fabricantes nacionales de chips de potencia informática de IA marcarán el comienzo de oportunidades para el desarrollo industrial.

3. Tres partes colaboran para respaldar la infraestructura informática y profundizar la construcción del proyecto “Datos Orientales y Computación Occidental”

En la conferencia de prensa de la Conferencia sobre potencia informática de China de 2023, Zhang Yunming, viceministro del Ministerio de Industria y Tecnología de la Información, presentó los resultados positivos logrados en los últimos años en la construcción de un sistema de suministro de energía informática de alta calidad. Para mejorar las capacidades integrales de la infraestructura informática, todas las partes han cooperado activamente y tomado diversas medidas, logrando resultados positivos en tres aspectos.

1) Se han introducido una tras otra políticas de planificación del desarrollo del poder computacional y las garantías institucionales son sólidas y efectivas. El Ministerio de Industria y Tecnología de la Información, la Comisión Nacional de Desarrollo y Reforma y otros departamentos publicaron conjuntamente el "Plan de implementación del centro de potencia informática del sistema de innovación colaborativa del centro nacional integrado de Big Data" y aprobaron la construcción de 10 nodos de centros de potencia informática nacionales en 8 regiones. Al mismo tiempo, también se emitió el "Plan de acción trienal para el desarrollo de nuevos centros de datos (2021-2023)" para continuar optimizando el diseño general de la potencia informática nacional.

2) La construcción de infraestructura de potencia informática ha avanzado sólidamente y el impulso de desarrollo ha seguido aumentando. Para apoyar el desarrollo de la economía digital, todas las partes de la industria han trabajado estrechamente para acelerar la construcción de infraestructura, la construcción de sistemas de energía informática y el desarrollo ecológico. Desde 2018, la tasa de crecimiento anual compuesta del número de racks en los centros de datos de mi país ha superado el 30%. Para finales de 2022, el número de bastidores estándar superará los 6,5 millones y la potencia informática total alcanzará los 180 EFLOPS, solo superada por Estados Unidos. Al mismo tiempo, el tamaño total de almacenamiento supera los 1000 EB (1 billón de GB). Estos datos muestran que nuestro país ha logrado logros notables en términos de potencia informática.

3) La potencia informática potencia la transformación y actualización de las industrias tradicionales, y se está acelerando el surgimiento de aplicaciones integradas. En la actualidad, la industria de la energía informática de mi país inicialmente ha formado una escala, y las empresas en la cadena industrial han lanzado una cooperación colaborativa entre el midstream y el downstream, formando una interacción positiva. La potencia informática no sólo se ha convertido en un importante punto de apoyo para la transformación y modernización de las industrias tradicionales, sino que también ha generado una serie de nuevos puntos de crecimiento económico. Según cálculos de la Academia de Tecnología de la Información y las Comunicaciones de China, la escala de la industria informática central de mi país alcanzará los 1,8 billones de yuanes en 2022. Cada yuan invertido en potencia informática generará entre 3 y 4 yuanes de crecimiento económico del PIB. Estos datos muestran que la industria de la informática tiene amplias perspectivas de desarrollo en nuestro país y un enorme potencial económico.

Ningxia ampliará la influencia de su centro de potencia informática al albergar la Conferencia Western Digital Empowerment y la segunda conferencia de la industria de potencia informática "Western Digital Valley". Como primera conferencia industrial en la región occidental con el tema del empoderamiento digital, la primera Conferencia sobre potencia informática del "Valle Digital Occidental" firmó 24 proyectos en 2022, con una inversión total de 72,7 mil millones de yuanes, y se han implementado 18 proyectos. lejos. Como nodo central de potencia informática de "Eastern Data and Western Computing", Ningxia construyó 349.000 bastidores estándar de centros de datos en junio de 2023. El ancho de banda de exportación interprovincial de Internet alcanzó los 20,6 Tbps y su nivel de red se encuentra en una posición de liderazgo en el región occidental.

En la actualidad, la estructura del poder informático está dominada por las empresas de informática y almacenamiento en general, que representan el 61%. El país está promoviendo el proyecto "Datos Orientales y Computación Occidental": mediante la construcción de un nuevo sistema de red de energía informática, la demanda de energía informática del este se dirigirá hacia el oeste de manera ordenada, optimizando el diseño de la construcción del centro de datos y promover el desarrollo coordinado del este y el oeste. Los ocho nodos del centro de potencia informática nacional se convertirán en puntos de conexión clave de la red de potencia informática de mi país, promoverán el desarrollo de grupos de centros de datos y promoverán la construcción colaborativa entre centros y redes de datos, la computación en la nube y los big data. El proyecto promoverá la transferencia ordenada de recursos informáticos hacia Occidente.

Plataforma de entrenamiento modelo grande Blue Ocean Brain

La plataforma de entrenamiento de modelos grandes Blue Ocean Brain proporciona un potente soporte de potencia informática, incluido un acelerador de IA basado en la interconexión de alta velocidad de módulos de aceleración abiertos. Está configurado con memoria de alta velocidad y admite una topología totalmente interconectada para cumplir con los requisitos de comunicación del paralelismo tensorial en el entrenamiento de modelos grandes. Admite la expansión de E/S de alto rendimiento y se puede extender al clúster de IA de Wanka para satisfacer las necesidades de comunicación de grandes canalizaciones de modelos y paralelismo de datos. Potente sistema de refrigeración líquida intercambiable en caliente y tecnología de administración de energía inteligente, cuando el BMC recibe una falla de la fuente de alimentación o una advertencia de error (como corte de energía, sobretensión, sobrecalentamiento), automáticamente fuerza a la CPU del sistema a ingresar a ULFM (modo de frecuencia ultrabaja) para lograr el menor consumo de energía). Comprometidos a proporcionar a los clientes soluciones informáticas de alto rendimiento ecológicas y respetuosas con el medio ambiente mediante "ahorro de energía y bajas emisiones de carbono". Se utiliza principalmente en aprendizaje profundo, educación académica, biomedicina, exploración terrestre, meteorología y oceanografía, centros de supercomputación, inteligencia artificial y big data y otros campos.

1. ¿Por qué necesitamos un modelo grande?

1. El efecto del modelo es mejor.

El efecto de los modelos grandes en varias escenas es mejor que el de los modelos normales.

2. Mayor capacidad creativa

Los modelos grandes pueden realizar generación de contenido (AIGC) para facilitar la producción de contenido a gran escala.

3. Personalización flexible de escenarios.

Al dar ejemplos, podemos personalizar una gran cantidad de escenarios de aplicación para modelos grandes.

4. Datos menos etiquetados

Al aprender una pequeña cantidad de datos de la industria, los modelos grandes pueden hacer frente a las necesidades de escenarios comerciales específicos.

2. Características de la plataforma

1. Programación heterogénea de recursos informáticos

Una solución integral basada en servidores de uso general y hardware dedicado para programar y gestionar múltiples recursos informáticos heterogéneos, incluidas CPU, GPU, etc. A través de potentes funciones de gestión de virtualización, los recursos informáticos subyacentes se pueden implementar fácilmente y se pueden ejecutar varios modelos de manera eficiente. Al mismo tiempo, las capacidades de aceleración de hardware de diferentes recursos heterogéneos se utilizan al máximo para acelerar la velocidad de ejecución y generación del modelo.

2. Almacenamiento de datos estable y confiable

Admite múltiples protocolos de tipo de almacenamiento, incluidos servicios de almacenamiento de bloques, archivos y objetos. Agrupar recursos de almacenamiento para lograr la libre circulación de modelos y datos generados, mejorando la utilización de los datos. Al mismo tiempo, se adoptan mecanismos de protección de datos como copias múltiples, dominios de fallas de múltiples niveles y autorrecuperación de fallas para garantizar el funcionamiento seguro y estable de los modelos y los datos.

3. Red distribuida de alto rendimiento

Proporciona red y almacenamiento de recursos informáticos, los reenvía a través de mecanismos de red distribuida, transmite de forma transparente el rendimiento de la red física y mejora significativamente la eficiencia y el rendimiento de la potencia informática del modelo.

4. Garantía de seguridad integral

En términos de alojamiento de modelos, se adopta un estricto mecanismo de gestión de permisos para garantizar la seguridad del almacén de modelos. En términos de almacenamiento de datos, se proporcionan medidas como la implementación privatizada y el cifrado del disco de datos para garantizar la seguridad y la controlabilidad de los datos. Al mismo tiempo, durante el proceso de distribución y operación del modelo, se proporcionan funciones integrales de autenticación de cuenta y auditoría de registros para garantizar completamente la seguridad del modelo y los datos.

Tres, configuración común

1. Procesador, CPU:

Intel Xeon Gold 8358P 32C/64T 2,6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platino 8350C 32C/64T 2,6 GHz 48 MB, DDR4 3200, Turbo, HT 240 W

Intel Xeon Platino 8458P 28C/56T 2,7 GHz 38,5 MB, DDR4 2933, Turbo, HT 205 W

Procesador Intel Xeon Platinum 8468 48C/64T 2,1 GHz 105 M caché 350 W

AMD EPYC™ 7742 64C/128T, 2,25 GHz a 3,4 GHz, 256 MB, DDR4 3200 MT/s, 225 W

AMD EPYC™ 9654 96C/192T, 2,4 GHz a 3,55 GHz a 3,7 GHz, 384 MB, DDR5 4800 MT/s, 360 W

2. Tarjeta gráfica, GPU:

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 8 GPU 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

Supongo que te gusta

Origin blog.csdn.net/LANHYGPU/article/details/132783705
Recomendado
Clasificación