Claude 2 explica os segredos técnicos do ChatGPT 4: detalhes: número de parâmetros, arquitetura, infraestrutura, conjunto de dados de treinamento, custo

Claude 2 explica os segredos técnicos do ChatGPT 4: detalhes: número de parâmetros, arquitetura, infraestrutura, conjunto de dados de treinamento, custo

Incluído na coleção#inteligência artificial50

"  Decifrando a arquitetura do modelo do ChatGPT 4, infraestrutura de treinamento, infraestrutura de inferência, contagem de parâmetros, composição do conjunto de dados de treinamento, contagem de tokens, número de camadas, estratégia paralela, adaptação visual multimodal, processo de pensamento por trás de diferentes compensações de engenharia, tecnologia de implementação exclusiva. "

foto

01

Recentemente, me deparei com um documento "GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE ", que se baseia em informações coletadas por pesquisadores estrangeiros e especula sobre os detalhes técnicos do ChatGPT 4, que deve estar próximo de uns aos outros.

O autor original acredita: OpenAI tem incríveis habilidades de engenharia, e as coisas que eles constroem são incríveis, mas as soluções que eles apresentam não são mágicas. Esta é uma solução elegante com muitas compensações complexas. Crescer é apenas parte da estratégia. O fosso mais duradouro da OpenAI é que eles têm os casos de uso mais reais , liderando talentos de engenharia e podem continuar a liderar outros com modelos futuros .

Reunimos muitas informações sobre o GPT-4 de várias fontes e hoje queremos compartilhá-las. Isso inclui arquitetura de modelo, infraestrutura de treinamento, infraestrutura de inferência, contagens de parâmetros , composição do conjunto de dados de treinamento, contagens de tokens, número de camadas, estratégias paralelas , adaptação visual multimodal, processos de pensamento por trás de diferentes compensações de engenharia , técnicas de implementação exclusivas e como eles aliviam alguns dos problemas Seu maior gargalo tem a ver com a inferência de modelos enormes.

Há apenas dois dias, Claude 2 abriu a versão web, que também suporta a leitura de PDF. Experiência Claude 2! Gratuito para usar, gerar código, melhorar o raciocínio lógico e lembrar conversas por mais tempo .

Como um paciente com IA grave, essa função é usada naturalmente e o documento PDF é carregado.

foto

As letras pequenas no prompt acima: "carregue até 5 arquivos por vez, cada um com tamanho máximo de 10M, aceita pdf, txt, csv, etc.". De acordo com o tipo de arquivo exibido na caixa de diálogo de upload, doc, docx, ppt também são suportados nesta "espera".

O ícone de upload girou por um tempo, e o upload foi concluído, e pedi a Claude 2 que me ajudasse a resumir a ideia central do documento.

foto

O GPT-4 usa uma arquitetura especialista híbrida (MoE) com cerca de 18 bilhões de parâmetros e 120 camadas. Cada passagem direta usa apenas cerca de 28 bilhões de parâmetros, reduzindo bastante o custo de inferência.

  1. O conjunto de dados de treinamento contém cerca de 130 trilhões de tokens e os dados de código têm 4 rodadas de época. A aquisição de conjuntos de dados continua sendo o principal gargalo.

  2. O custo de treinamento é de cerca de 63 milhões de dólares americanos, usando paralelismo de tensor de 8 vias e paralelismo de pipeline de 15 vias. O custo de inferência é cerca de 3 vezes maior do que o GPT-3.

  3. A inferência usa um especialista misto (MoE) de 16 vias, com 2 especialistas selecionados para cada passagem direta. O tamanho máximo do lote pode atingir 4k+, mas a taxa de utilização é baixa. Um mecanismo de atenção multiconsulta reduz os requisitos de memória.

  4. Os codificadores visuais são separados, mas com atenção cruzada. A próxima geração do GPT-5 treinará os módulos de visão e áudio do zero.

  5. As principais compensações de engenharia incluem o número de especialistas mistos, tamanho do lote, latência de inferência, etc. No futuro, pode ser possível usar a decodificação especulativa para acelerar a inferência.

  6. Várias empresas têm a capacidade de treinar modelos de tamanho semelhante no curto prazo, mas o OpenAI tem uma vantagem duradoura devido à sua aplicação em larga escala.

O autor do documento afirmou: OpenAI mantém a arquitetura GPT-4 fechada não porque haja alguns riscos existenciais para os humanos, mas porque o que eles constroem é reproduzível. De fato, Google, Meta, Anthropic, Inflection, Character, Tencent, ByteDance, Baidu, etc. todos terão modelos tão poderosos quanto GPT-4 no curto prazo.

Para entender o conteúdo acima, alguns substantivos precisam ser esclarecidos, vamos um a um.

02

Símbolo

Símbolo

No campo da inteligência artificial, token é um conceito muito importante, que tem principalmente os seguintes significados:

Lexogramas em Processamento de Linguagem Natural . Uma sentença pode ser dividida em tokens um por um , e cada token é um token.

Em modelos de linguagem pré-treinados, os tokens geralmente se referem a caracteres ou subpalavras . Modelos como BERT e GPT são pré-treinados com tokens como unidade básica.

token também pode representar qualquer símbolo. Por exemplo, no código, um token pode ser um operador, pontuação, parênteses, etc.

No modelo de classe transformador, o token é a unidade básica da camada de incorporação e cada token será mapeado para um vetor .

No vetor de palavras, uma palavra é mapeada para um vetor de palavras, que também pode ser chamado de token da palavra.

Na cadeia de blocos, o token representa uma unidade básica em criptomoeda.

Nos modelos de geração de linguagem natural, os tokens representam a saída de cada etapa de geração, que podem ser palavras ou subpalavras.

Para resumir, o token pode ser entendido como uma menor unidade básica discreta e distinguível em uma sequência de símbolos . Geralmente é usado para representar os elementos básicos da linguagem e da semântica e é o objeto principal para a construção de modelos de linguagem pré-treinados. Escolher um método de tokenização apropriado é muito importante para melhorar o desempenho do modelo.

Na cobrança da API do chatGPT 4, ela é cobrada de acordo com a quantidade de tokens. E você não pode simplesmente entender que uma palavra ou frase chinesa e uma palavra em inglês são um símbolo. Existe uma interface gratuita na API para contar o número de tokens em um parágrafo.

03

época

época

Um conceito comumente usado em aprendizado de máquina refere-se a uma travessia completa no conjunto de treinamento .

Ao treinar um modelo de rede neural, geralmente não usamos apenas o conjunto de treinamento para treinar uma vez, mas treinamos repetidamente o mesmo conjunto de treinamento várias vezes, e cada travessia completa do conjunto de treinamento é chamada de época. As razões são as seguintes:

Várias rodadas de treinamento podem tornar o modelo mais estável e convergente e melhorar a generalização. O treinamento de uma única época geralmente superajusta.

A epochLoss inicial cai rapidamente e a epochLoss tardia cai lentamente. Múltiplas rodadas de treinamento podem continuar para otimizar a perda.

O tamanho do passo (taxa de aprendizado) de cada rodada de atualização de parâmetro pode ser diferente, o passo inicial é grande e o passo final é pequeno, de modo a garantir uma convergência rápida sem oscilação.

Múltiplas rodadas de treinamento podem visualizar a curva de perda, julgar sobreajuste ou subajuste e ajustar o modelo de acordo.

Quando o conjunto de dados é grande, uma única rodada não pode carregar todos os dados e várias rodadas de treinamento podem fazer uso total dos dados.

Várias rodadas de treinamento também podem executar algumas técnicas de aprimoramento, como interromper a ordem dos dados, sub-rede de amostragem, etc.

Portanto, no treinamento real, geralmente definimos várias rodadas de épocas e cada época percorre todos os dados de treinamento uma vez. Se o número da época for muito pequeno, ele será subajustado e, se for muito grande, será fácil superajustar. Geralmente, o número de épocas é determinado dinamicamente observando a curva de perda.

capacidade de generalização de generalização

Refere-se ao desempenho do modelo em conjuntos de dados diferentes do conjunto de treinamento (geralmente conjuntos de validação e teste).

Um modelo com bom desempenho no conjunto de treinamento (baixa perda e alta precisão), mas com desempenho ruim no conjunto de teste, é considerado overfitting, o que significa que a capacidade de generalização do modelo é ruim.

Um modelo espera ter boa capacidade de generalização, ou seja, pode manter um bom desempenho em outros dados além do conjunto de treinamento.

As formas de melhorar a generalização são:

  • Aumente a quantidade e a diversidade dos dados do conjunto de treinamento

  • Use técnicas de regularização (regularização L1, L2, Dropout, etc.)

  • Use técnicas como regularização em lote e parada antecipada para evitar overtraining

  • Use o aumento de dados para reduzir o overfitting

  • Escolha o tamanho do modelo certo, não muito grande e complexo

  • Múltiplas rodadas de treinamento, overfitting inicial, generalização melhorada posteriormente

  • Usando a tecnologia de conjunto

  • Avalie e selecione o modelo no conjunto de validação

A generalização refere-se à capacidade do modelo de ter um bom desempenho em novos dados que não sejam os dados de treinamento. Isso reflete a distribuição de dados que o modelo realmente aprendeu, em vez de simplesmente memorizar as amostras de treinamento.

Especificamente, um modelo com forte capacidade de generalização possui as seguintes características:

  • Não será excessivamente dependente dos dados de treinamento e não sofrerá overfitting severo.

  • Pode ser estendida a uma gama mais ampla de tarefas e não se limitará a tarefas de treinamento.

  • O desempenho é estável em diferentes conjuntos de teste sem grandes flutuações.

  • Quando confrontados com novos dados, informações importantes podem ser extraídas e previsões razoáveis ​​podem ser feitas.

  • O que se aprende é a lei de distribuição de dados real, em vez de simplesmente memorizar os dados de treinamento.

  • Ao encontrar novas situações, você pode dar respostas flexíveis em vez de aplicar rigidamente os padrões aprendidos.

  • O tamanho do modelo é adequado, com poder expressivo suficiente, mas não muito complexo.

Resumindo, a "capacidade de generalização" reflete a adaptabilidade de um forte sistema de IA a novas tarefas e novos ambientes, e é um dos objetivos importantes perseguidos pela inteligência artificial.

Perda de época 

Refere-se ao valor da função de perda do modelo de aprendizado de máquina no final de cada época (cada rodada do conjunto de treinamento).

Normalmente, o treinamento de um modelo de rede neural requer várias épocas. Em cada época, o modelo percorre o conjunto de treinamento uma vez, calcula a função de perda uma vez e retropropaga para atualizar os parâmetros.

Então o valor da função de perda calculado no final de cada época é a perda de época.

Monitorar a curva de mudança de perda de época pode julgar a situação de treinamento do modelo, principalmente os seguintes aspectos podem ser observados:

Se a perda de época continua a diminuir. Se houver um aumento significativo, pode ser overfitting.

A velocidade de descida é rápida e lenta. A perda de época cai significativamente no estágio inicial, e a perda de época cai lentamente no estágio posterior, o que geralmente é normal.

O tamanho do valor de Perda. Se o valor de Loss for muito grande, significa que o modelo ainda está no estágio inicial de treinamento e o efeito não é bom.

Condição de tremor. É normal que o jitter seja grande no estágio inicial do treinamento e pequeno no estágio posterior. O jitter excessivo pode exigir o ajuste da taxa de aprendizado ou regularização.

Observe o sobreajuste. Se a Perda no conjunto de verificação aumentar e a Perda no conjunto de treinamento continuar a diminuir, isso indica overfitting.

Portanto, observar a tendência de mudança de perda de cada época pode nos ajudar a julgar a situação de treinamento, otimizar o modelo e treinar hiperparâmetros no tempo.

04

MoE

MoE : Camada de mixagem especializada controlada por portas esparsas , também chamada de especialista em mixagem.

Moe, abreviação de Mixture-Of-Experts, pode aumentar a capacidade do modelo em mais de 1.000 vezes, garantindo a velocidade de computação.

motivação

O modelo atual está ficando cada vez maior e há cada vez mais amostras de treinamento. Cada amostra precisa ser totalmente calculada pelo modelo, o que leva a um aumento quadrático nos custos de treinamento.

Para resolver esse problema, alguém propôs uma maneira de dividir o modelo grande em vários modelos pequenos. Para uma amostra, não é necessário passar por todos os modelos pequenos para cálculo, mas apenas ativar uma parte dos modelos pequenos para cálculo , o que economiza recursos de computação.

Então, como decidir por quais pequenos modelos uma amostra passa? Isso introduz um mecanismo de porta esparsa, ou seja, a amostra é inserida nessa porta e o pequeno índice do modelo a ser ativado é obtido.Essa porta precisa garantir esparsidade, de modo a garantir a otimização do poder de computação.

No artigo anterior: Por que é muito mais eficaz dizer "Você é um especialista em tal e tal domínio" para um grande modelo de linguagem como ChatGPT e ChatGLM? (2) , apresenta que o ChatGPT é uma versão matemática de uma rede neural, os detalhes acima mostram que o ChatGPT usa a arquitetura MoE.

Artigos populares recomendados no passado:

Grande modelo de inteligência artificial AI perdido! ChatGPT, BARD, BING e Claude foram capturados por "ataques de dica" um após o outro!

Bardo! O contra-ataque mais forte do Google contra o ChatGPT, Quiet Mimi agora suporta chinês!

Por que é muito mais eficaz dizer "Você é um especialista em um determinado campo" para um grande modelo de linguagem como ChatGPT e ChatGLM? (dois)

Amigos que queiram experimentar o robô ChatGPT WeChat podem escanear o QR code abaixo para entrar no grupo (válido até 24 de julho): @ChatGPT Smart Assistant, basta seguir as perguntas que achar.

Acho que você gosta

Origin blog.csdn.net/sinat_37574187/article/details/132050409
Recomendado
Clasificación