1. Recursos de la semana 1
A continuación se encuentran enlaces a los trabajos de investigación discutidos en el video de esta semana. No es necesario que comprenda todos los detalles técnicos que se analizan en estos artículos; ha visto los puntos más importantes que necesitará para responder las pruebas en los videos de las conferencias.
Sin embargo, si desea observar más de cerca la investigación original, puede leer estos artículos y artículos a través de los enlaces a continuación.
1.1 Arquitectura del transformador
- Atención es lo que necesitas " Atención es todo lo que necesitas "
- Este artículo presenta la arquitectura Transformer y el mecanismo central de "autoatención". Este artículo es la base de los LLM.
- BLOOM: Modelo BigScience 176B 《BLOOM: Modelo BigScience 176B》
- BLOOM es un LLM de código abierto con parámetros 176B (similar a GPT-4), entrenado de manera abierta y transparente. En este artículo, los autores analizan en detalle los conjuntos de datos y los procedimientos utilizados para entrenar los modelos. También puede ver una descripción general de alto nivel del modelo aquí .
- Modelo espacial vectorial " Modelos espaciales vectoriales "
- La serie de cursos de especialización en procesamiento del lenguaje natural de DeepLearning.AI analiza los fundamentos de los modelos de espacio vectorial y su aplicación al modelado del lenguaje.
1.2 Reglas de preentrenamiento y escalamiento
- Leyes de escala para modelos de lenguaje neuronal " Leyes de escala para modelos de lenguaje neuronal "
- Un estudio empírico realizado por investigadores de OpenAI que explora las leyes de escala para modelos de lenguaje grandes.
1.3 Arquitectura del modelo y objetivos previos al entrenamiento.
- ¿Qué arquitectura de modelo de lenguaje y objetivo de preentrenamiento es mejor para una generalización cero? 《¿ Qué arquitectura de modelo de lenguaje y objetivo de preentrenamiento funcionan mejor para la generalización de disparo cero?》
- Este artículo examina las opciones de modelado en grandes modelos de lenguaje previamente entrenados e identifica los mejores métodos para la generalización de tiro cero.
- Una colección de recursos para diversas tareas de aprendizaje automático que utilizan la biblioteca HuggingFace.
- LLaMA: Modelo de lenguaje básico abierto y eficiente " LLaMA: Modelos de lenguaje básico abierto y eficiente "
- Artículo sobre LLM eficiente propuesto por Meta AI (su modelo de 13 mil millones supera a GPT3 con 175 mil millones de parámetros en la mayoría de los puntos de referencia)
1.4 Ley de escala y cálculo del mejor modelo.
- Los modelos de lenguaje son aprendices de pocas posibilidades " Los modelos de lenguaje son aprendices de pocas posibilidades "
- Este artículo investiga el potencial del aprendizaje en pocas oportunidades en modelos de lenguaje grandes.
- Entrenamiento de modelos de lenguaje grande óptimos para computación " Entrenamiento de modelos de lenguaje grande óptimos para computación "
- Un estudio de DeepMind que evalúa el tamaño óptimo del modelo y la cantidad de tokens para entrenar LLM. También conocido como "Los papeles de Chinchilla".
- BloombergGPT: Un modelo de lenguaje grande en el campo financiero " BloombergGPT: Un modelo de lenguaje grande para las finanzas "
- Un LLM capacitado específicamente para el campo financiero es un buen ejemplo de cómo intentar seguir la ley de la chinchilla.
2. BloombergGPT
BloombergGPT es un gran modelo de lenguaje exclusivo para decodificador desarrollado por Bloomberg. Está previamente capacitado utilizando una amplia gama de conjuntos de datos financieros, incluidos artículos de noticias, informes y datos de mercado, para mejorar su comprensión financiera y permitirle generar textos en lenguaje natural relacionados con las finanzas. El conjunto de datos se muestra en la imagen de arriba.
Durante el entrenamiento de BloombergGPT, los autores utilizaron la ley de escala de Chinchilla para guiar la cantidad de parámetros en el modelo y la cantidad de datos de entrenamiento, medidos en unidades de tokens. La propuesta Chinchilla está representada por las líneas Chinchilla-1, Chinchilla-2 y Chinchilla-3 en la imagen, y podemos ver que BloombergGPT está muy cerca de ella.
Aunque la configuración recomendada para el presupuesto de informática de capacitación disponible para el equipo es de 50 mil millones de parámetros y 1,4 billones de tokens, obtener datos de capacitación sobre 1,4 billones de tokens en el ámbito financiero resultó un desafío. Por lo tanto, construyeron un conjunto de datos que contenía sólo 700 mil millones de tokens, menos que el valor óptimo calculado. Además, debido a una detención anticipada, el proceso de capacitación finalizó después de procesar 569 mil millones de tokens.
El proyecto BloombergGPT es un buen ejemplo de cómo realizar un preentrenamiento de modelos para una mayor especificidad de dominio y los desafíos que pueden obligarlo a hacer concesiones entre calcular el mejor modelo y la configuración de entrenamiento.
Puedes leer el artículo de BloombergGPT aquí .
referencia
- https://www.coursera.org/learn/generative-ai-with-llms/supplement/Adylf/domain-specific-training-bloomberggpt
- https://www.coursera.org/learn/generative-ai-with-llms/supplement/kRX5c/week-1-resources