El último "secreto": la arquitectura del modelo GPT-4, el costo de capacitación y la información del conjunto de datos han sido recogidos

Fuente | Machine Heart ID | Almosthuman2014 Todos han sentido mucha curiosidad acerca de la arquitectura del modelo, la infraestructura, los conjuntos de datos de entrenamiento, los costos y otra información de GPT-4.

Sin embargo, la boca de OpenAI es demasiado estricta.Durante mucho tiempo, todos solo han adivinado estos datos.

No hace mucho tiempo, el "hacker genio" George Hotz (George Hotz) reveló un chisme en una entrevista con un podcast de tecnología de IA llamado Latent Space, diciendo que GPT-4 es un sistema integrado compuesto por 8 modelos expertos mixtos. Cada modelo experto tiene 220 mil millones de parámetros (un poco más que los 175 mil millones de parámetros de GPT-3), y estos modelos están entrenados en diferentes distribuciones de datos y tareas.

Aunque esta noticia no se puede verificar, su popularidad es muy alta y algunos expertos de la industria también la consideran muy razonable.

Recientemente, parece que se han filtrado más noticias.

Hoy, SemiAnalysis lanzó un contenido de suscripción paga que "reveló" más información sobre GPT-4.

editar

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

Según el artículo, recopilaron mucha información sobre GPT-4 de muchas fuentes, incluida la arquitectura del modelo, la infraestructura de entrenamiento, la infraestructura de inferencia, el volumen de parámetros, la composición del conjunto de datos de entrenamiento, el volumen del token, la cantidad de capas, la estrategia paralela, la adaptación de la visión multimodal. , el proceso de pensamiento detrás de diferentes compensaciones de ingeniería, técnicas de implementación únicas y cómo aliviar los cuellos de botella relacionados con la inferencia de modelos enormes, etc.

Según los autores, el aspecto más interesante de GPT-4 es comprender por qué OpenAI tomó ciertas decisiones arquitectónicas.

Además, el artículo también presenta los costos de capacitación e inferencia de GPT-4 en A100, y cómo expandirse a la arquitectura modelo H100 de próxima generación.

Recopilamos la siguiente información de datos sobre GPT-4 basada en un tweet (ahora eliminado) de Yam Peleg, fundador de Deep Trading (una empresa de comercio algorítmico). Los lectores interesados ​​pueden estudiarlo detenidamente.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

Sin embargo, tenga en cuenta que estos no son datos confirmados oficialmente, y usted mismo puede juzgar su precisión.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

1. La cantidad de parámetros: el tamaño de GPT-4 es más de 10 veces mayor que el de GPT-3. El artículo considera un total de 1,8 billones de parámetros en su red de 120 capas.

2. De hecho, es un modelo experto mixto. OpenAI pudo mantener los costos razonables mediante el uso de un modelo Mixture of Experts (MoE). Usaron 16 modelos expertos en el modelo, cada modelo experto tiene alrededor de 111B parámetros. 2 de estos modelos expertos se enrutan a cada pase hacia adelante.

3. Enrutamiento MoE: aunque hay mucha discusión en la literatura sobre algoritmos de enrutamiento avanzados para elegir a qué modelo experto enrutar cada token, se dice que OpenAI emplea un enfoque de enrutamiento bastante simple en el modelo GPT-4 actual. El modelo utiliza aproximadamente 55 mil millones de parámetros compartidos para los cálculos de atención.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

4. Inferencia: la inferencia de cada paso hacia adelante (que genera 1 token) solo usa alrededor de 280 mil millones de parámetros y alrededor de 560 TFLOP de cálculo. Por el contrario, el modelo denso puro requiere alrededor de 1,8 billones de parámetros y alrededor de 3700 TFLOP de cómputo por paso hacia adelante.

5. Conjunto de datos: el conjunto de datos de entrenamiento de GPT-4 contiene alrededor de 13 billones de tokens. Estos tokens son el resultado de cálculos repetidos y se cuentan tokens de varias épocas.

Número de épocas: el entrenamiento se realizó durante 2 épocas en datos basados ​​en texto y 4 épocas en datos basados ​​en código. Además, hay millones de filas de datos de ajuste fino de instrucciones de ScaleAI e internamente.

6. GPT-4 32K: en la fase de preentrenamiento, GPT-4 utiliza una longitud de contexto (seqlen) de 8k. La versión de longitud de secuencia de 32k de GPT-4 se obtiene ajustando la versión de 8k después del entrenamiento previo.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

7. Tamaño del lote: en el clúster informático, el tamaño del lote aumentó gradualmente en unos pocos días y, finalmente, ¡OpenAI usó el tamaño del lote para alcanzar los 60 millones! Por supuesto, dado que no todos los modelos expertos pueden ver todos los tokens, este es solo un tamaño de lote de 7,5 millones de tokens por modelo experto.

Tamaño real del lote: divida este número por la longitud de la secuencia (seq len) para obtener el tamaño real del lote. Por favor, deja de usar números tan engañosos.

8. Estrategia paralela: para realizar computación paralela en todas las GPU A100, adoptaron el paralelismo de tensor de 8 vías porque este es el límite de NVLink. Además, también adoptaron 15 gasoductos paralelos. (Lo más probable es que se haya utilizado ZeRo Stage 1 y posiblemente FSDP a nivel de bloque).

editar

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

9. Costo de capacitación: OpenAI usó alrededor de 2.15e25 FLOPS en la capacitación de GPT-4, usó alrededor de 25,000 GPU A100, entrenó durante 90 a 100 días y la tasa de utilización (MFU) fue de aproximadamente 32% a 36%. Esta utilización extremadamente baja se debe en parte a la gran cantidad de fallas que requieren reiniciar los puntos de control.

Si cuestan alrededor de $ 1 por hora por GPU A100 en la nube, eso costaría alrededor de $ 63 millones solo para esta sesión de capacitación. (Hoy, el entrenamiento previo con aproximadamente 8192 GPU H100 se reduce a aproximadamente 55 días a un costo de $ 21,5 millones, facturado a $ 2 por hora por GPU H100).

10. Compensación cuando se usa el modelo de mezcla experta: Hay muchos aspectos de compensación cuando se usa el modelo de mezcla experta.

Por ejemplo, lidiar con MoE durante la inferencia es muy difícil porque no todas las partes del modelo se utilizan en cada generación de tokens. Esto significa que mientras se utilizan algunas piezas, otras pueden estar inactivas. Esto puede afectar gravemente la utilización de los recursos al atender a los usuarios. Los investigadores han demostrado que usar de 64 a 128 expertos puede lograr una mejor pérdida que usar 16 expertos, pero esto es solo el resultado de la investigación.

Hay varias razones para elegir menos modelos expertos. Una de las razones por las que OpenAI eligió 16 modelos expertos es que, en muchas tareas, los modelos más expertos son más difíciles de generalizar y posiblemente más difíciles de converger.

Debido a este tipo de formación a gran escala, OpenAI optó por ser más conservador en la cantidad de modelos expertos.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

11. Costo de inferencia: el costo de inferencia de GPT-4 es 3 veces mayor que el del modelo Davinci con 175 mil millones de parámetros. Esto se debe principalmente a que GPT-4 requiere un clúster más grande y logra una utilización mucho menor.

Se estima que el costo de la inferencia en la versión 8k de GPT-4 es de 0,0049 centavos por 1000 tokens utilizando 128 GPU A100 para la inferencia. Usando 128 GPU H100 para inferencia, la misma versión de 8k de inferencia GPT-4 cuesta 0,0021 centavos por 1000 tokens. Vale la pena señalar que estas estimaciones asumen una alta utilización y mantienen alto el tamaño del lote.

12. Atención de consultas múltiples: OpenAI, al igual que otras instituciones, también utiliza Atención de consultas múltiples (MQA). Dado que solo se necesita un cabezal de atención con MQA, la capacidad de memoria para la caché KV se puede reducir significativamente. Aun así, GPT-4 con una longitud de secuencia de 32k definitivamente no puede ejecutarse en una GPU A100 de 40GB, y el modelo con una longitud de secuencia de 8k está limitado por el tamaño máximo del lote.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

13. Dosificación continua: OpenAI implementa lotes de tamaño variable y dosificación continua. Esto se hace para permitir cierto grado de latencia máxima y para optimizar el costo de inferencia.

14. Visual Multimodal: Es un codificador visual independiente del codificador de texto con atención cruzada entre ambos. La arquitectura es similar a Flamingo. Esto agrega más parámetros además de los 1,8 billones de parámetros de GPT-4. Después de un entrenamiento previo en texto sin formato, se ajustó en otros ~2 billones de tokens.

Para el modelo de visión, OpenAI originalmente quería entrenar desde cero, pero dado que aún no está maduro, decidieron comenzar a entrenar desde el texto primero para reducir el riesgo.

Uno de los propósitos principales de esta capacidad de visión es permitir que los agentes autónomos lean páginas web y transcriban contenido de imágenes y videos.

Parte de los datos con los que entrenaron eran datos conjuntos (incluidos LaTeX/texto renderizados), capturas de pantalla de páginas web, videos de YouTube (fotogramas de muestra) y los pasaron a través de Whisper para obtener el texto transcrito.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

15. Decodificación especulativa: OpenAI puede haber utilizado tecnología de decodificación especulativa en el proceso de razonamiento de GPT-4 (no estoy seguro si es 100 %). El enfoque es utilizar un modelo más pequeño y más rápido para decodificar múltiples tokens con anticipación y alimentarlos como un solo lote en un gran modelo predictivo (modelo Oracle).

Si el modelo pequeño es correcto en su predicción, el modelo grande estará de acuerdo y podremos decodificar múltiples tokens en un solo lote.

Sin embargo, si el modelo grande rechaza un token predicho por el modelo preliminar, el resto del lote se descarta y continuamos decodificando usando el modelo grande.

Algunas teorías de la conspiración apuntan al hecho de que el nuevo GPT-4 se ha degradado en calidad, y esto puede ser simplemente el resultado de su mala interpretación al hacer que su modelo de decodificación especulativo pase secuencias con menor probabilidad al modelo predictivo.

Editar alternar al centro

Agregue anotaciones de imágenes, no más de 140 palabras (opcional)

16. Arquitectura de inferencia: la inferencia se ejecuta en un clúster que consta de 128 GPU. Existen múltiples clústeres de este tipo en múltiples centros de datos en diferentes ubicaciones. El proceso de inferencia utiliza paralelismo de tensor de 8 vías y paralelismo de tubería de 16 vías. Cada nodo que consta de 8 GPU tiene solo alrededor de 130 mil millones de parámetros.

El modelo tiene 120 capas y, por lo tanto, encaja en 15 nodos diferentes. Probablemente el primer nodo tenga menos capas porque también necesita calcular incrustaciones.

Según estos números, si OpenAI estuviera tratando de entrenar en la mejor métrica para la chinchilla, debería usar el doble de tokens que ahora. Esto sugiere que tienen dificultades para obtener datos de alta calidad.

Lo último que quiero decir es que esta debería ser la revelación de datos más detallada sobre GPT-4 hasta el momento. Todavía no es posible verificar si es cierto, pero vale la pena investigar. Como lo expresaron los autores originales, "El aspecto interesante es comprender por qué OpenAI toma ciertas decisiones arquitectónicas".

¿Qué opinas sobre la información de arquitectura de GPT-4?

Para obtener más información, consulte el texto original: https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

Supongo que te gusta

Origin blog.csdn.net/lqfarmer/article/details/131742468
Recomendado
Clasificación