Amazon Cloud Technology utiliza la instancia Inf2 para ejecutar el modelo GPT-J-6B

En Amazon Cloud Technology re:Invent en 2019, Amazon Cloud Technology lanzó dos infraestructuras, el chip Inferentia y la instancia Inf1. Inferentia es un chip de inferencia de aprendizaje automático de alto rendimiento, diseñado a medida por Amazon Cloud Technology, y su propósito es proporcionar una predicción rentable a gran escala y de baja latencia. Después de cuatro años, en abril de 2023, Amazon Cloud Technology lanzó el chip Inferentia2 y la instancia Inf2, con el objetivo de brindar soporte técnico para el razonamiento de modelos a gran escala.

a9bd73ffac1745ecab58552bb4ce2294.png

 

Escenarios de aplicación de instancias Inf2

Utilice las instancias Inf2 de Amazon Cloud Technology para ejecutar aplicaciones populares, como resumen de texto, generación de código, generación de videos e imágenes, reconocimiento de voz, personalización y más. Las instancias Inf2 son las primeras instancias optimizadas para inferencia en Amazon EC2, e introducen la inferencia distribuida de escalamiento horizontal impulsada por NeuronLink, una interconexión sin bloqueos de alta velocidad. Los modelos con cientos de miles de millones de parámetros ahora se pueden implementar de manera eficiente en múltiples aceleradores en instancias Inf2. Las instancias Inf2 ofrecen un rendimiento tres veces mayor, una latencia ocho veces menor y una relación precio/rendimiento un 40 % mejor que otras instancias Amazon EC2 similares. Para cumplir con los objetivos de sostenibilidad, las instancias Inf2 ofrecen un 50 % más de rendimiento por vatio en comparación con otras instancias similares de Amazon EC2.

 

Ejecute el modelo GPT-J-6B con una instancia Inf2

GPT-J-6B es un modelo de lenguaje autorregresivo de código abierto creado por un grupo de investigadores llamado EleutherAI. Es una de las alternativas más avanzadas a GPT-3 de OpenAI y funciona bien en una amplia gama de tareas de lenguaje natural, como chat, resumen y respuesta a preguntas.

El modelo consta de 28 capas con una dimensión de modelo de 4096 y una dimensión de avance de 16384. La dimensión del modelo se divide en 16 cabezas, y cada cabeza tiene una dimensión de 256. La incrustación de posición rotacional (RoPE) se aplica a cada cabeza en 64 dimensiones. El modelo se entrena con un vocabulario tokenizado de 50257 utilizando el mismo conjunto de BPE que GPT-2/GPT-3.

hiperparámetro

Valor

n_parámetros

6.053.381.344

n_capas

28*

modelo_d

4,096

d_ff

16,384

n_cabezas

dieciséis

d_cabeza

256

n_ctx

2,048

n_vocabulario

50,257 (mismo tokenizador que GPT-2/3)

La infraestructura GPT-J-6B tiene 6 mil millones de parámetros, lo que la hace ideal para una versión introductoria del aprendizaje del modelo de lenguaje grande (LLM), pruebas de generación de texto. Durante la implementación, se utilizan Neuron SDK y transformers-neuronx. transformers-neuronx es una biblioteca de código abierto creada por el equipo de AWS Neuron para ayudar a ejecutar flujos de trabajo de inferencia de transformadores y decodificadores mediante el SDK de AWS Neuron. Actualmente, proporciona secuencias de comandos de demostración para los tipos de modelos GPT2, GPT-J y OPT, cuyas funciones de avance se vuelven a implementar durante la compilación para el análisis y la optimización del código, y se pueden implementar otras arquitecturas de modelos basadas en la misma biblioteca. La clase de convertidor-decodificador optimizada para AWS Neuron se ha vuelto a implementar en XLA HLO (Operaciones avanzadas) mediante una sintaxis denominada PyHLO. La biblioteca también implementa Tensor Parallelism para fragmentar pesos de modelos en múltiples NeuronCores.

Supongo que te gusta

Origin blog.csdn.net/m0_66395609/article/details/130722901
Recomendado
Clasificación