Fácil de entender o princípio do chatGPT

De: Sem Dados Não Inteligente

No momento, as informações sobre o chatGPT estão muito dispersas e não há nenhum artigo detalhando todos os pontos de conhecimento e visão geral do sistema, portanto, o autor fez este artigo resumido.

Visão geral do processo de treinamento
Esclarecer o caminho evolutivo
Pré treino
- Visão geral do GPT-3
- A ideia do modelo GPT 3
- Como o GPT-3 aprende
- conjunto de dados
Ajuste fino de instrução (IFT)
Ajuste Fino Supervisionado (SFT)
Aprendizagem por Reforço de Feedback Humano (Aprendizado por Reforço de Feedback Humano, RLHF)
Outros métodos
- Cadeia de pensamento (CoT)
Trabalho semelhante ao chatGPT
citar

Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Visão geral do processo de treinamento

O OpenAI usa um modelo de linguagem grande (LM) com parâmetros de 175B e um modelo de recompensa (RM) com parâmetros de 6B. Além do pré-treinamento, o processo de treinamento é dividido em três etapas:

Colete conjuntos de dados de várias tarefas de NLP, adicione descrições de tarefas e prompts para montar novos conjuntos de dados e use esses dados para ajustar modelos de linguagem de grande escala pré-treinados. Incluindo ajuste fino de instrução e ajuste fino supervisionado .
Amostra do conjunto de dados acima, gere várias respostas usando um grande modelo de linguagem, classifique manualmente essas respostas e treine um modelo de recompensa (RM) para atender às preferências humanas.
Com base no modelo de ajuste fino supervisionado no primeiro estágio e no modelo de recompensa no segundo estágio, um grande modelo de linguagem é treinado posteriormente usando um algoritmo de aprendizado por reforço.

img

Esclarecer o caminho evolutivo

A quantidade de parâmetros do GPT-3.5 ainda é 175B, e a árvore evolutiva geral é a seguinte:

img

Pré treino

Visão geral do GPT-3

O GPT-3 é um modelo autorregressivo que usa apenas um decodificador, e o objetivo do treinamento também é prever a próxima palavra (a tarefa de não julgar a próxima frase).
O maior modelo GPT-3 tem parâmetros 175B, que é 470 vezes maior que o modelo BERT (0,375B)

imagem-20230221144754842

A ideia do modelo GPT 3

Não há necessidade de se conectar a uma nova estrutura de modelo: se bert for usado para tarefas NER, geralmente é conectado a LSTM+CRF
nenhum ajuste fino necessário
Um modelo resolve várias tarefas de PNL
Tarefas de PNL podem ser resolvidas com modelos generativos
Como os humanos, ele só precisa ver um número muito pequeno de exemplos para aprender

Como o GPT-3 aprende

Aprendizado zero-shot: fornecer descrição da tarefa, dicas
Aprendizagem única: forneça uma descrição da tarefa, um exemplo, dicas
Aprendizagem de poucos tiros: forneça descrição da tarefa, alguns exemplos, dicas

conjunto de dados

Modelo	tempo de lançamento	Valor do parâmetro	A quantidade de dados pré-treinamento
BERT-large	março de 2019	375 milhões	cerca de 3,3 GB
GPT	junho de 2018	117 milhões	cerca de 5 GB
GPT-2	fevereiro de 2019	1.5 bilhoes	40GB
GPT-3	maio de 2020	175 bilhões	45 TB

BERT-large：LivrosCorpus 800 milhões de palavras、 Wikipédia em inglês 2,5Bpalavras
GPT: WebText2, BooksCorpus, Wikipedia acima de 5 GB.
GPT-2: A quantidade total de WebText2, BooksCorpus e Wikipedia atingiu 40 GB.
GPT-3: **WebText2, BooksCorpus, Wikipedia, Common Crawl** e outros conjuntos de dados com 45 TB de dados.

imagem-20230221153905277

Ajuste fino de instrução (IFT)

Colete conjuntos de dados de várias tarefas de NLP, adicione descrições de tarefas e dicas para montar novos conjuntos de dados. Os conjuntos de dados usados pelo chatGPT são os seguintes:

imagem-20230221113507381

Alguns papéis relacionados:

Instruções não naturais (Honovich 等, '22): https://arxiv.org/abs/2212.09689
Instruções sobrenaturais (Wang 等, '22): https://arxiv.org/abs/2204.07705
Autoinstrução (Wang 等, '22): https://arxiv.org/abs/2212.10560
T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207
Conjunto de dados de instruções naturais (Mishra et al., '22): https://arxiv.org/abs/2104.08773
FLAN LM (Wei et al, '22): https://arxiv.org/abs/2109.01652
OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017

Ajuste Fino Supervisionado (SFT)

Esta etapa não é para evitar respostas sem sentido como [não sei] ao encontrar tópicos delicados, para adicionar alguns dados rotulados manualmente para aumentar a segurança da resposta e pode ser concluída com um conjunto de dados de 100 níveis .

Alguns papéis relacionados:

LaMDA do Google: Apêndice A https://arxiv.org/abs/2201.08239
Sparrow por DeepMind: Sparrow: Apêndice F https://arxiv.org/abs/2209.14375

Aprendizagem por Reforço de Feedback Humano (Aprendizado por Reforço de Feedback Humano, RLHF)

descrever:

Política: Um LM que pega um prompt e retorna uma sequência de textos (ou uma distribuição de probabilidade de textos).
Action space (espaço de ação): todos os tokens correspondentes ao vocabulário de LM (geralmente na ordem de 50k),
O espaço de observação é a sequência de possíveis tokens de entrada, que também é relativamente grande (vocabulário ^ número de tokens de entrada).
A função de recompensa é uma combinação de um modelo de preferência e uma restrição de mudança de política.

Este processo é um processo de duas etapas :

Agregue dados de perguntas e respostas e treine um modelo de recompensa (Modelo de recompensa, RM)
LMs de ajuste fino com aprendizado por reforço (RL)

Conjuntos de dados de código aberto:

Antrópico/hh-rlhf · Conjuntos de dados no rosto de abraço

OpenAI usa feedback enviado por usuários.

imagem-20230221111329526

Outros métodos

Esta parte apresenta brevemente alguns métodos paralelos ao ajuste fino usado pelo chatGPT

Cadeia de pensamento (CoT)

Ajuste fino usando alguns conjuntos de dados com inferência passo a passo, conforme mostrado abaixo

Laranja é a descrição da tarefa, rosa é a pergunta e resposta e azul é o processo de raciocínio

Cadeia de dicas de pensamento (Wei et al., '22): https://arxiv.org/abs/2201.11903

Trabalho semelhante ao chatGPT

BlenderBot da Meta: https://arxiv.org/abs/2208.03188
LaMDA do Google: https://arxiv.org/abs/2201.08239
Pardal por DeepMind: https://arxiv.org/abs/2209.14375
Anthropic 的 Assistant: https://arxiv.org/abs/2204.05862

citar

MODELOS DE TRANSFORMADORES: UMA INTRODUÇÃO E CATÁLOGO
WebGPT: Resposta a perguntas assistida por navegador com feedback humano
Modelos de linguagem de treinamento para seguir instruções com feedback humano
https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew
https://openai.com/blog/chatgpt/
https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ
https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug
https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w
https://zhuanlan.zhihu.com/p/595891945
https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/1810.04805.pdf

Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Junte-se ao planeta, você receberá:

1. Atualize 3-5 leituras de velocidade de papel mais recentes e de alta qualidade todos os dias

2. Os materiais de aprendizagem introdutórios e avançados mais recentes

4. Informações diárias de recrutamento 1-3 para cargos de IA, como PNL, pesquisa, promoção e promoção e CV