De: Sin datos No inteligente
En la actualidad, la información sobre chatGPT está demasiado dispersa y no hay un artículo que detalle todos los puntos de conocimiento y una descripción general del sistema. Por lo tanto, el autor hizo este artículo de resumen.
Resumen del proceso de formación
Aclarar el camino evolutivo
Pre-entrenamiento
Descripción general de GPT-3
La idea del modelo GPT 3
Cómo aprende GPT-3
conjunto de datos
Ajuste fino de instrucciones (IFT)
Ajuste fino supervisado (SFT)
Aprendizaje por refuerzo de la retroalimentación humana (aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF)
Otros metodos
Cadena de pensamiento (CoT)
Trabajo similar a chatGPT
cita
Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)
Resumen del proceso de formación
OpenAI utiliza un modelo de lenguaje grande (LM) con parámetros 175B y un modelo de recompensa (RM) con parámetros 6B. Además de la formación previa, el proceso de formación se divide en tres pasos:
Recopile conjuntos de datos de varias tareas de NLP, agregue descripciones de tareas e indicaciones para ensamblar nuevos conjuntos de datos, y use estos datos para ajustar modelos de lenguaje a gran escala previamente entrenados. Incluyendo instrucciones de ajuste fino y ajuste fino supervisado .
Muestre del conjunto de datos anterior, genere múltiples respuestas utilizando un modelo de lenguaje grande, clasifique manualmente estas respuestas y entrene un modelo de recompensa (RM) para adaptarse a las preferencias humanas.
Basado en el modelo de ajuste fino supervisado en la primera etapa y el modelo de recompensa en la segunda etapa, se entrena aún más un modelo de lenguaje grande utilizando un algoritmo de aprendizaje por refuerzo.
Aclarar el camino evolutivo
La cantidad de parámetros de GPT-3.5 sigue siendo 175B, y el árbol evolutivo general es el siguiente:
Pre-entrenamiento
Descripción general de GPT-3
GPT-3 es un modelo autorregresivo que solo usa un decodificador, y el objetivo del entrenamiento también es predecir la siguiente palabra (la tarea de no juzgar la siguiente oración).
El modelo GPT-3 más grande tiene parámetros 175B, que es 470 veces más grande que el modelo BERT (0.375B)
La idea del modelo GPT 3
No es necesario conectarse a una nueva estructura de modelo: si se usa bert para tareas NER, generalmente se conecta a LSTM+CRF
no se requiere ajuste fino
Un modelo resuelve múltiples tareas de PNL
Las tareas de PNL se pueden resolver con modelos generativos
Al igual que los humanos, solo necesita ver una cantidad muy pequeña de ejemplos para aprender
Cómo aprende GPT-3
Aprendizaje de disparo cero: proporcione descripción de la tarea, sugerencias
Aprendizaje de una sola vez: proporcione una descripción de la tarea, un ejemplo, sugerencias
Aprendizaje de pocos disparos: proporcione una descripción de la tarea, algunos ejemplos, sugerencias
conjunto de datos
Modelo | tiempo de liberación | cantidad de parámetro | La cantidad de datos previos al entrenamiento |
---|---|---|---|
BERT-grande | marzo 2019 | 375 millones | alrededor de 3,3 GB |
GPT | junio 2018 | 117 millones | alrededor de 5 GB |
GPT-2 | febrero 2019 | 1.500 millones | 40GB |
GPT-3 | mayo 2020 | 175 mil millones | 45TB |
BERT-grande:BooksCorpus 800M palabras、 Wikipedia en inglés 2.5Bpalabras
GPT: WebText2, BooksCorpus, Wikipedia sobre 5 GB.
GPT-2: la cantidad total de WebText2, BooksCorpus y Wikipedia alcanzó los 40 GB.
GPT-3: **WebText2, BooksCorpus, Wikipedia, Common Crawl** y otros conjuntos de datos con 45 TB de datos.
imagen-20230221153905277
Ajuste fino de instrucciones (IFT)
Recopile conjuntos de datos de varias tareas de NLP, agregue descripciones de tareas y sugerencias para ensamblar nuevos conjuntos de datos. Los conjuntos de datos utilizados por chatGPT son los siguientes:
Algunos documentos relacionados:
Instrucciones antinaturales (Honovich 等, '22): https://arxiv.org/abs/2212.09689
Instrucciones sobrenaturales (Wang 等, '22): https://arxiv.org/abs/2204.07705
Autoinstrucción (Wang 等, '22): https://arxiv.org/abs/2212.10560
T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207
Conjunto de datos de instrucciones naturales (Mishra et al., '22): https://arxiv.org/abs/2104.08773
FLAN LM (Wei et al, '22): https://arxiv.org/abs/2109.01652
OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017
Ajuste fino supervisado (SFT)
Este paso no es para evitar respuestas sin sentido como [No sé] cuando se encuentran con temas delicados, para agregar algunos datos etiquetados manualmente para aumentar la seguridad de la respuesta, y se puede completar con un conjunto de datos de 100 niveles .
Algunos documentos relacionados:
LaMDA de Google: Apéndice A https://arxiv.org/abs/2201.08239
Gorrión de DeepMind: Gorrión: Apéndice F https://arxiv.org/abs/2209.14375
Aprendizaje por refuerzo de la retroalimentación humana (aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF)
describir:
Política: un LM que toma un aviso y devuelve una secuencia de textos (o una distribución de probabilidad de textos).
Action space (espacio de acción): todos los tokens correspondientes al vocabulario de LM (generalmente del orden de 50k),
El espacio de observación es la secuencia de posibles tokens de entrada, que también es relativamente grande (vocabulario ^ número de tokens de entrada).
La función de recompensa es una combinación de un modelo de preferencia y una restricción de cambio de política.
Este proceso es un proceso de dos pasos :
Agregue datos de preguntas y respuestas y entrene un modelo de recompensa (Modelo de recompensa, RM)
Ajuste fino de LM con aprendizaje por refuerzo (RL)
Conjuntos de datos de código abierto:
Anthropic/hh-rlhf · Conjuntos de datos en Hugging Face
OpenAI utiliza los comentarios enviados por los usuarios.
Otros metodos
Esta parte presenta brevemente algunos métodos paralelos al ajuste fino utilizado por chatGPT
Cadena de pensamiento (CoT)
Ajuste fino usando algunos conjuntos de datos con inferencia paso a paso como se muestra a continuación
El naranja es la descripción de la tarea, el rosa es la pregunta y la respuesta y el azul es el proceso de razonamiento.
Cadena de consejos de pensamiento (Wei et al., '22): https://arxiv.org/abs/2201.11903
Trabajo similar a chatGPT
BlenderBot de Meta: https://arxiv.org/abs/2208.03188
LaMDA de Google: https://arxiv.org/abs/2201.08239
Gorrión de DeepMind: https://arxiv.org/abs/2209.14375
Asistente Anthropic的: https://arxiv.org/abs/2204.05862
cita
MODELOS DE TRANSFORMADORES: INTRODUCCIÓN Y CATÁLOGO
WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos
Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana
https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew
https://openai.com/blog/chatgpt/
https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ
https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug
https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w
https://zhuanlan.zhihu.com/p/595891945
https://www.hpc-ai.tech/blog/colosal-ai-chatgpt
https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/1810.04805.pdf
Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)
Únete al planeta, obtendrás:
1. Actualice 3-5 lecturas de velocidad de papel más recientes y de alta calidad todos los días
2. Los últimos materiales de aprendizaje introductorio y avanzado
4. Información de contratación diaria de 1 a 3 para puestos de AI como PNL, búsqueda, promoción y promoción, y CV