GPT-3.5
La serie GPT-3.5 es una serie de modelos que se entrenaron con texto y código a partir del cuarto trimestre de 2021. Los siguientes modelos pertenecen a la familia GPT-3.5:
- code-davinci-002 es un modelo base ideal para tareas puras de finalización de código
- text-davinci-002 es un modelo InstructGPT basado en code-davinci-002
- text-davinci-003 es una mejora de text-davinci-002
- gpt-3.5-turbo-0301 es una mejora sobre text-davinci-003, optimizado para chat
InstruirGPT
Variantes del modelo InstructGPT entrenadas de 3 maneras diferentes:
modelo de método de entrenamiento | nombre del modelo |
---|---|
SFT supervisó el ajuste fino de la demostración humana davinci-instruct-beta1 |
davinci-instruct-beta 1 |
FeedME realiza un ajuste fino supervisado en demostraciones escritas por humanos y muestras de modelos con una puntuación de 7/7 en la puntuación de calidad general de los anotadores humanos. |
text-davinci-001 , text-davinci-002 , text-curie-001 , text-babbage-001 |
PPO utiliza modelos de recompensa entrenados comparativamente por humanos para el aprendizaje por refuerzo |
text-davinci-003 |
El entrenamiento de los modelos SFT y PPO es similar a los modelos del documento InstructGPT. Los modelos FeedME (abreviatura de "feedback made easy") se entrenan extrayendo las mejores terminaciones de todos nuestros modelos. Nuestros modelos generalmente se entrenan con el mejor conjunto de datos disponible, por lo que diferentes motores que usan el mismo método de entrenamiento pueden entrenarse con diferentes datos.
ChatGPT
ChatGPT e InstructGPT son un par de modelos hermanos, que son modelos de calentamiento lanzados antes de GPT-4 y, a veces, se denominan GPT3.5. ChatGPT e InstructGPT son exactamente iguales en términos de estructura del modelo y métodos de entrenamiento, es decir, ambos utilizan el aprendizaje de instrucciones (Instruction Learning) y el aprendizaje por refuerzo de retroalimentación artificial (Reinforcement Learning from Human Feedback, RLHF) para guiar el entrenamiento del modelo. La única diferencia entre ellos es que existen diferencias en la forma en que se recopilan los datos.
Sitio web oficial de Open AI
Hemos entrenado un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas. ChatGPT es un modelo hermano de InstructGPT , que está capacitado para seguir una instrucción en un aviso y proporcionar una respuesta detallada.
De hecho, GPT-3.5-turbo* es el nombre del modelo ChatGPT.
Artículos de investigación relacionados con OpenAI
Estos son los modelos más parecidos que hemos encontrado en los trabajos de investigación disponibles en la API en la actualidad. Tenga en cuenta que no todos los modelos disponibles en la API corresponden a un artículo, e incluso para los modelos enumerados a continuación, pueden existir pequeñas diferencias que impiden que los artículos se reproduzcan exactamente.
papel | tiempo de emisión | nombre del modelo en el papel | El nombre del modelo en la API. | número de parámetros |
---|---|---|---|---|
[2005.14165] Los modelos de lenguaje son aprendices de pocas oportunidades | 22 de julio de 2020 | GPT-3 175B | davinci | 175B |
GPT-3 6.7B | curie | 6.7b | ||
GPT-3 1B | baba | 1B | ||
[2107.03374] Evaluación de modelos de lenguaje extenso entrenados en código | 14 de julio de 2021 | Códice 12B | código-cushman-001 3 | 12B |
[2201.10005] Incrustaciones de texto y código mediante entrenamiento previo contrastivo | 14 de enero de 2022 | GPT-3 texto cpt no supervisado 175B | texto-similitud-davinci-001 | 175B |
GPT-3 texto cpt no supervisado 6B | texto-similitud-curie-001 | 6b | ||
GPT-3 texto cpt no supervisado 1.2B | No hay un modelo de coincidencia cercana en la API | 1.2b | ||
[2009.01325] Aprendiendo a resumir a partir de comentarios humanos | 15 de febrero de 2022 | Preentrenamiento GPT-3 6.7B | No hay un modelo de coincidencia cercana en la API | 6.7b |
Preentrenamiento GPT-3 2.7B | No hay un modelo de coincidencia cercana en la API | 2.7b | ||
Preentrenamiento GPT-3 1.3B | No hay un modelo de coincidencia cercana en la API | 1.3B | ||
[2203.02155] Modelos de lenguaje de entrenamiento para seguir instrucciones con retroalimentación humana | 4 de marzo de 2022 | InstruirGPT-3 175B SFT | davinci-instruir-beta | 175B |
InstruirGPT-3 175B | No hay un modelo de coincidencia cercana en la API | 175B | ||
InstruirGPT-3 6B | No hay un modelo de coincidencia cercana en la API | 6b | ||
InstruirGPT-3 1.3B | No hay un modelo de coincidencia cercana en la API | 1.3B |
otro
aprendizaje reforzado
Por lo general, el aprendizaje por refuerzo se parece a esto. El entorno genera una recompensa por cada acción.