La relación entre GPT3.5, InstructGPT y ChatGPT

GPT-3.5

La serie GPT-3.5 es una serie de modelos que se entrenaron con texto y código a partir del cuarto trimestre de 2021. Los siguientes modelos pertenecen a la familia GPT-3.5:

  • code-davinci-002 es un modelo base ideal para tareas puras de finalización de código
  • text-davinci-002 es un modelo InstructGPT basado en code-davinci-002
  • text-davinci-003 es una mejora de text-davinci-002
  • gpt-3.5-turbo-0301 es una mejora sobre text-davinci-003, optimizado para chat

InstruirGPT

Variantes del modelo InstructGPT entrenadas de 3 maneras diferentes:

modelo de método de entrenamiento nombre del modelo
SFT
supervisó el ajuste fino de la demostración humana davinci-instruct-beta1
davinci-instruct-beta1
FeedME
realiza un ajuste fino supervisado en demostraciones escritas por humanos y muestras de modelos con una puntuación de 7/7 en la puntuación de calidad general de los anotadores humanos.
text-davinci-001text-davinci-002text-curie-001text-babbage-001
PPO
utiliza modelos de recompensa entrenados comparativamente por humanos para el aprendizaje por refuerzo
text-davinci-003

El entrenamiento de los modelos SFT y PPO es similar a los modelos del documento InstructGPT. Los modelos FeedME (abreviatura de "feedback made easy") se entrenan extrayendo las mejores terminaciones de todos nuestros modelos. Nuestros modelos generalmente se entrenan con el mejor conjunto de datos disponible, por lo que diferentes motores que usan el mismo método de entrenamiento pueden entrenarse con diferentes datos.

ChatGPT

ChatGPT e InstructGPT son un par de modelos hermanos, que son modelos de calentamiento lanzados antes de GPT-4 y, a veces, se denominan GPT3.5. ChatGPT e InstructGPT son exactamente iguales en términos de estructura del modelo y métodos de entrenamiento, es decir, ambos utilizan el aprendizaje de instrucciones (Instruction Learning) y el aprendizaje por refuerzo de retroalimentación artificial (Reinforcement Learning from Human Feedback, RLHF) para guiar el entrenamiento del modelo. La única diferencia entre ellos es que existen diferencias en la forma en que se recopilan los datos.

Sitio web oficial de Open AI

Hemos entrenado un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas. ChatGPT es un modelo hermano de  InstructGPT , que está capacitado para seguir una instrucción en un aviso y proporcionar una respuesta detallada.

De hecho, GPT-3.5-turbo* es el nombre del modelo ChatGPT. 

Artículos de investigación relacionados con OpenAI

Estos son los modelos más parecidos que hemos encontrado en los trabajos de investigación disponibles en la API en la actualidad. Tenga en cuenta que no todos los modelos disponibles en la API corresponden a un artículo, e incluso para los modelos enumerados a continuación, pueden existir pequeñas diferencias que impiden que los artículos se reproduzcan exactamente.

papel tiempo de emisión nombre del modelo en el papel El nombre del modelo en la API. número de parámetros
[2005.14165] Los modelos de lenguaje son aprendices de pocas oportunidades 22 de julio de 2020 GPT-3 175B davinci 175B
GPT-3 6.7B curie 6.7b
GPT-3 1B baba 1B
[2107.03374] Evaluación de modelos de lenguaje extenso entrenados en código 14 de julio de 2021 Códice 12B código-cushman-001 3 12B
[2201.10005] Incrustaciones de texto y código mediante entrenamiento previo contrastivo 14 de enero de 2022 GPT-3 texto cpt no supervisado 175B texto-similitud-davinci-001 175B
GPT-3 texto cpt no supervisado 6B texto-similitud-curie-001 6b
GPT-3 texto cpt no supervisado 1.2B No hay un modelo de coincidencia cercana en la API 1.2b
[2009.01325] Aprendiendo a resumir a partir de comentarios humanos 15 de febrero de 2022 Preentrenamiento GPT-3 6.7B No hay un modelo de coincidencia cercana en la API 6.7b
Preentrenamiento GPT-3 2.7B No hay un modelo de coincidencia cercana en la API 2.7b
Preentrenamiento GPT-3 1.3B No hay un modelo de coincidencia cercana en la API 1.3B
[2203.02155] Modelos de lenguaje de entrenamiento para seguir instrucciones con retroalimentación humana 4 de marzo de 2022 InstruirGPT-3 175B SFT davinci-instruir-beta 175B
InstruirGPT-3 175B No hay un modelo de coincidencia cercana en la API 175B
InstruirGPT-3 6B No hay un modelo de coincidencia cercana en la API 6b
InstruirGPT-3 1.3B No hay un modelo de coincidencia cercana en la API 1.3B

otro

aprendizaje reforzado

Por lo general, el aprendizaje por refuerzo se parece a esto. El entorno genera una recompensa por cada acción.

InstruirGPT

Supongo que te gusta

Origin blog.csdn.net/keeppractice/article/details/129973967
Recomendado
Clasificación