Fácil de entender el principio de chatGPT

De: Sin datos No inteligente

En la actualidad, la información sobre chatGPT está demasiado dispersa y no hay un artículo que detalle todos los puntos de conocimiento y una descripción general del sistema. Por lo tanto, el autor hizo este artículo de resumen.

  • Resumen del proceso de formación

  • Aclarar el camino evolutivo

  • Pre-entrenamiento

    • Descripción general de GPT-3

    • La idea del modelo GPT 3

    • Cómo aprende GPT-3

    • conjunto de datos

  • Ajuste fino de instrucciones (IFT)

  • Ajuste fino supervisado (SFT)

  • Aprendizaje por refuerzo de la retroalimentación humana (aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF)

  • Otros metodos

    • Cadena de pensamiento (CoT)

  • Trabajo similar a chatGPT

  • cita

Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)

Resumen del proceso de formación

OpenAI utiliza un modelo de lenguaje grande (LM) con parámetros 175B y un modelo de recompensa (RM) con parámetros 6B. Además de la formación previa, el proceso de formación se divide en tres pasos:

  1. Recopile conjuntos de datos de varias tareas de NLP, agregue descripciones de tareas e indicaciones para ensamblar nuevos conjuntos de datos, y use estos datos para ajustar modelos de lenguaje a gran escala previamente entrenados. Incluyendo instrucciones de ajuste fino y ajuste fino supervisado .

  2. Muestre del conjunto de datos anterior, genere múltiples respuestas utilizando un modelo de lenguaje grande, clasifique manualmente estas respuestas y entrene un modelo de recompensa (RM) para adaptarse a las preferencias humanas.

  3. Basado en el modelo de ajuste fino supervisado en la primera etapa y el modelo de recompensa en la segunda etapa, se entrena aún más un modelo de lenguaje grande utilizando un algoritmo de aprendizaje por refuerzo.

exterior_predeterminado.png
imagen

Aclarar el camino evolutivo

La cantidad de parámetros de GPT-3.5 sigue siendo 175B, y el árbol evolutivo general es el siguiente:

15bc3b7076a9d34079a4c09932a0cb0a.png
imagen
3c0ff2e36227961fd235036dd3ddb4a6.png
imagen

Pre-entrenamiento

Descripción general de GPT-3

30c5b2b87f7fc41a3b4f3a978edb8505.jpeg 60ad4cd821f655d8fadb09ab955076e3.png
  • GPT-3 es un modelo autorregresivo que solo usa un decodificador, y el objetivo del entrenamiento también es predecir la siguiente palabra (la tarea de no juzgar la siguiente oración).

  • El modelo GPT-3 más grande tiene parámetros 175B, que es 470 veces más grande que el modelo BERT (0.375B)

00d87486b5b2181c087b8efb6c5dbd3e.png
imagen-20230221144754842

La idea del modelo GPT 3

  • No es necesario conectarse a una nueva estructura de modelo: si se usa bert para tareas NER, generalmente se conecta a LSTM+CRF

  • no se requiere ajuste fino

  • Un modelo resuelve múltiples tareas de PNL

  • Las tareas de PNL se pueden resolver con modelos generativos

  • Al igual que los humanos, solo necesita ver una cantidad muy pequeña de ejemplos para aprender

Cómo aprende GPT-3

  • Aprendizaje de disparo cero: proporcione descripción de la tarea, sugerencias

  • Aprendizaje de una sola vez: proporcione una descripción de la tarea, un ejemplo, sugerencias

  • Aprendizaje de pocos disparos: proporcione una descripción de la tarea, algunos ejemplos, sugerencias

50665215876e69209b199e231f51f4f2.png


conjunto de datos

Modelo tiempo de liberación cantidad de parámetro La cantidad de datos previos al entrenamiento
BERT-grande marzo 2019 375 millones alrededor de 3,3 GB
GPT junio 2018 117 millones alrededor de 5 GB
GPT-2 febrero 2019 1.500 millones 40GB
GPT-3 mayo 2020 175 mil millones 45TB
  • BERT-grande:BooksCorpus 800M palabras、 Wikipedia en inglés 2.5Bpalabras

  • GPT: WebText2, BooksCorpus, Wikipedia sobre 5 GB.

  • GPT-2: la cantidad total de WebText2, BooksCorpus y Wikipedia alcanzó los 40 GB.

  • GPT-3: **WebText2, BooksCorpus, Wikipedia, Common Crawl** y otros conjuntos de datos con 45 TB de datos.

    f24b7264604996269011e2375c492002.png
    imagen-20230221153905277

Ajuste fino de instrucciones (IFT)

Recopile conjuntos de datos de varias tareas de NLP, agregue descripciones de tareas y sugerencias para ensamblar nuevos conjuntos de datos. Los conjuntos de datos utilizados por chatGPT son los siguientes:

375dc2201b7a793d887f2241ca81d47a.png
imagen-20230221113507381

Algunos documentos relacionados:

  • Instrucciones antinaturales (Honovich 等, '22): https://arxiv.org/abs/2212.09689

  • Instrucciones sobrenaturales (Wang 等, '22): https://arxiv.org/abs/2204.07705

  • Autoinstrucción (Wang 等, '22): https://arxiv.org/abs/2212.10560

  • T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207

  • Conjunto de datos de instrucciones naturales (Mishra et al., '22): https://arxiv.org/abs/2104.08773

  • FLAN LM (Wei et al, '22): https://arxiv.org/abs/2109.01652

  • OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017

Ajuste fino supervisado (SFT)

Este paso no es para evitar respuestas sin sentido como [No sé] cuando se encuentran con temas delicados, para agregar algunos datos etiquetados manualmente para aumentar la seguridad de la respuesta, y se puede completar con un conjunto de datos de 100 niveles .

bc35c516e632633b9947f933e0d17cc0.png

Algunos documentos relacionados:

  • LaMDA de Google: Apéndice A https://arxiv.org/abs/2201.08239

  • Gorrión de DeepMind: Gorrión: Apéndice F https://arxiv.org/abs/2209.14375

Aprendizaje por refuerzo de la retroalimentación humana (aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF)

describir:

  • Política: un LM que toma un aviso y devuelve una secuencia de textos (o una distribución de probabilidad de textos).

  • Action space (espacio de acción): todos los tokens correspondientes al vocabulario de LM (generalmente del orden de 50k),

  • El espacio de observación es la secuencia de posibles tokens de entrada, que también es relativamente grande (vocabulario ^ número de tokens de entrada).

  • La función de recompensa es una combinación de un modelo de preferencia y una restricción de cambio de política.

Este proceso es un proceso de dos pasos :

  1. Agregue datos de preguntas y respuestas y entrene un modelo de recompensa (Modelo de recompensa, RM)

  2. Ajuste fino de LM con aprendizaje por refuerzo (RL)

Conjuntos de datos de código abierto:

Anthropic/hh-rlhf · Conjuntos de datos en Hugging Face

OpenAI utiliza los comentarios enviados por los usuarios.

d7bfa7352c085459adf4058d1ee66fba.png
imagen-20230221111329526

Otros metodos

Esta parte presenta brevemente algunos métodos paralelos al ajuste fino utilizado por chatGPT

Cadena de pensamiento (CoT)

Ajuste fino usando algunos conjuntos de datos con inferencia paso a paso como se muestra a continuación

El naranja es la descripción de la tarea, el rosa es la pregunta y la respuesta y el azul es el proceso de razonamiento.

36c218fce4df15a8589b5ad409384c1e.png

Cadena de consejos de pensamiento (Wei et al., '22): https://arxiv.org/abs/2201.11903

Trabajo similar a chatGPT

  • BlenderBot de Meta: https://arxiv.org/abs/2208.03188

  • LaMDA de Google: https://arxiv.org/abs/2201.08239

  • Gorrión de DeepMind: https://arxiv.org/abs/2209.14375

  • Asistente Anthropic的: https://arxiv.org/abs/2204.05862

cita

  • MODELOS DE TRANSFORMADORES: INTRODUCCIÓN Y CATÁLOGO

  • WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos

  • Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana

  • https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew

  • https://openai.com/blog/chatgpt/

  • https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ

  • https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug

  • https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w

  • https://zhuanlan.zhihu.com/p/595891945

  • https://www.hpc-ai.tech/blog/colosal-ai-chatgpt

  • https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

  • https://arxiv.org/pdf/1706.03762.pdf

  • https://arxiv.org/pdf/2005.14165.pdf

  • https://arxiv.org/pdf/1810.04805.pdf


Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)

Únete al planeta, obtendrás:

1.  Actualice 3-5 lecturas de velocidad de papel más recientes y de alta calidad todos los días

2.  Los últimos materiales de aprendizaje introductorio y avanzado

4.  Información de contratación diaria de 1 a 3 para puestos de AI como PNL, búsqueda, promoción y promoción, y CV

f19b849de8e43ddbdd4a4747140a1d8a.png

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/130023510
Recomendado
Clasificación