La primera semana de materiales de referencia de LLM y capacitación específica de dominio de BloombergGPT Capacitación específica de dominio: BloombergGPT

1. Recursos de la semana 1

A continuación se encuentran enlaces a los trabajos de investigación discutidos en el video de esta semana. No es necesario que comprenda todos los detalles técnicos que se analizan en estos artículos; ha visto los puntos más importantes que necesitará para responder las pruebas en los videos de las conferencias.

Sin embargo, si desea observar más de cerca la investigación original, puede leer estos artículos y artículos a través de los enlaces a continuación.

1.1 Arquitectura del transformador

  • Este artículo presenta la arquitectura Transformer y el mecanismo central de "autoatención". Este artículo es la base de los LLM.
  • BLOOM es un LLM de código abierto con parámetros 176B (similar a GPT-4), entrenado de manera abierta y transparente. En este artículo, los autores analizan en detalle los conjuntos de datos y los procedimientos utilizados para entrenar los modelos. También puede ver una descripción general de alto nivel del modelo aquí .
  • La serie de cursos de especialización en procesamiento del lenguaje natural de DeepLearning.AI analiza los fundamentos de los modelos de espacio vectorial y su aplicación al modelado del lenguaje.

1.2 Reglas de preentrenamiento y escalamiento

  • Un estudio empírico realizado por investigadores de OpenAI que explora las leyes de escala para modelos de lenguaje grandes.

1.3 Arquitectura del modelo y objetivos previos al entrenamiento.

  • Este artículo examina las opciones de modelado en grandes modelos de lenguaje previamente entrenados e identifica los mejores métodos para la generalización de tiro cero.
  • Una colección de recursos para diversas tareas de aprendizaje automático que utilizan la biblioteca HuggingFace.
  • Artículo sobre LLM eficiente propuesto por Meta AI (su modelo de 13 mil millones supera a GPT3 con 175 mil millones de parámetros en la mayoría de los puntos de referencia)

1.4 Ley de escala y cálculo del mejor modelo.

  • Este artículo investiga el potencial del aprendizaje en pocas oportunidades en modelos de lenguaje grandes.
  • Un estudio de DeepMind que evalúa el tamaño óptimo del modelo y la cantidad de tokens para entrenar LLM. También conocido como "Los papeles de Chinchilla".
  • Un LLM capacitado específicamente para el campo financiero es un buen ejemplo de cómo intentar seguir la ley de la chinchilla.

2. BloombergGPT

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
BloombergGPT es un gran modelo de lenguaje exclusivo para decodificador desarrollado por Bloomberg. Está previamente capacitado utilizando una amplia gama de conjuntos de datos financieros, incluidos artículos de noticias, informes y datos de mercado, para mejorar su comprensión financiera y permitirle generar textos en lenguaje natural relacionados con las finanzas. El conjunto de datos se muestra en la imagen de arriba.

Durante el entrenamiento de BloombergGPT, los autores utilizaron la ley de escala de Chinchilla para guiar la cantidad de parámetros en el modelo y la cantidad de datos de entrenamiento, medidos en unidades de tokens. La propuesta Chinchilla está representada por las líneas Chinchilla-1, Chinchilla-2 y Chinchilla-3 en la imagen, y podemos ver que BloombergGPT está muy cerca de ella.

Aunque la configuración recomendada para el presupuesto de informática de capacitación disponible para el equipo es de 50 mil millones de parámetros y 1,4 billones de tokens, obtener datos de capacitación sobre 1,4 billones de tokens en el ámbito financiero resultó un desafío. Por lo tanto, construyeron un conjunto de datos que contenía sólo 700 mil millones de tokens, menos que el valor óptimo calculado. Además, debido a una detención anticipada, el proceso de capacitación finalizó después de procesar 569 mil millones de tokens.

El proyecto BloombergGPT es un buen ejemplo de cómo realizar un preentrenamiento de modelos para una mayor especificidad de dominio y los desafíos que pueden obligarlo a hacer concesiones entre calcular el mejor modelo y la configuración de entrenamiento.

Puedes leer el artículo de BloombergGPT aquí .

referencia

  • https://www.coursera.org/learn/generative-ai-with-llms/supplement/Adylf/domain-specific-training-bloomberggpt
  • https://www.coursera.org/learn/generative-ai-with-llms/supplement/kRX5c/week-1-resources

Supongo que te gusta

Origin blog.csdn.net/zgpeace/article/details/132465328
Recomendado
Clasificación