Como construir um modelo GPT?

O poderoso modelo de linguagem de transformador pré-treinado generativo (GPT) introduzido pela OpenAI abre um novo campo de processamento de linguagem natural (NLP). A integração de modelos GPT em assistentes virtuais e chatbots aprimora seus recursos, levando a um aumento na demanda por modelos GPT. De acordo com um relatório intitulado "Global NLP Market" divulgado pela AlliedMarketResearch, o tamanho do mercado global de PNL foi de US$ 11,1 bilhões em 2020 e deve chegar a US$ 341,5 bilhões até 2030, com um CAGR de 40,9% de 2021 a 2030.

Os modelos GPT são uma coleção de modelos de linguagem baseados em aprendizado profundo criados pela equipe OpenAI. Sem supervisão, esses modelos podem executar várias tarefas de PNL, como resposta a perguntas, implicação textual, resumo de texto, etc.

O modelo GPT mais treinado - GPT-4, com mais de 1 trilhão de parâmetros de aprendizado, é mais de dez vezes mais poderoso do que qualquer modelo de linguagem. Sua vantagem sobre outros modelos é que ele pode executar a tarefa sem ajustes extensos; requer muito pouca apresentação de interação textual e o modelo faz o resto. Modelos GPT treinados avançados podem facilitar a vida realizando tradução de idiomas, resumo de texto, resposta a perguntas, integração de chatbot, geração de conteúdo, análise de sentimento, reconhecimento de entidade nomeada, classificação de texto, conclusão de texto, síntese de conversão de texto em fala e muito mais.

Qual é o modelo GPT?

GPT significa GenerativePre-trainedTransformer, o primeiro modelo de linguagem geral em PNL. Anteriormente, os modelos de linguagem eram projetados para tarefas únicas, como geração de texto, resumo ou classificação. O GPT é o primeiro modelo de linguagem de uso geral na história do processamento de linguagem natural que pode ser usado para várias tarefas de NLP. Vamos agora explorar os três componentes do GPT, Generative, Pre-Trained e Transformer, e entender o que eles significam.

Generativo: os modelos generativos são modelos estatísticos usados ​​para gerar novos dados. Esses modelos podem aprender a relação entre as variáveis ​​em um conjunto de dados para gerar novos pontos de dados semelhantes aos do conjunto de dados original.

Pré-treinado: esses modelos foram pré-treinados usando grandes conjuntos de dados e podem ser usados ​​quando for difícil treinar novos modelos. Embora um modelo pré-treinado possa não ser perfeito, ele pode economizar tempo e melhorar o desempenho.

Transformer: O modelo Transformer é uma rede neural artificial, criada em 2017, e é o mais famoso modelo de deep learning capaz de processar dados sequenciais como texto. Muitas tarefas, como tradução automática e classificação de texto, são executadas usando modelos de transformadores.

O GPT pode executar várias tarefas NLP com alta precisão com base nos grandes conjuntos de dados nos quais é treinado e em sua arquitetura de bilhões de parâmetros, permitindo que ele entenda as conexões lógicas nos dados. Os modelos GPT, como a versão mais recente do GPT-3, foram pré-treinados usando texto de cinco grandes conjuntos de dados, incluindo CommonCrawl e WebText2. O corpus contém quase um trilhão de palavras, permitindo que o GPT-3 execute rapidamente tarefas de PNL sem nenhum exemplo de dados.

Como funciona o modelo GPT

O GPT é um modelo de linguagem AI baseado na arquitetura do transformador, que é pré-treinado, generativo, não supervisionado e capaz de funcionar bem em configurações multitarefa zero/uma vez/poucas. Ele prevê o próximo token (instância de uma sequência de caracteres) a partir de uma sequência de tokens usados ​​para tarefas de NLP, para as quais não foi treinado. Depois de ver apenas alguns exemplos, ele pode alcançar os resultados desejados em alguns benchmarks, incluindo tradução automática, resposta a perguntas e tarefas de fechamento. O modelo GPT calcula principalmente a possibilidade de uma palavra aparecer em outro texto com base na probabilidade condicional. Por exemplo, na frase "Margaretis organizando uma venda de garagem...talvez possamos comprar aquele velho..." a palavra cadeira é mais apropriada do que a palavra "elefante". Além disso, o modelo do transformador usa várias unidades chamadas de blocos de atenção para aprender em quais partes da sequência de texto focar. Um transformador pode ter vários módulos de atenção, cada um aprendendo um aspecto diferente de um idioma.

A arquitetura do Transformer tem duas partes principais: o codificador, que opera principalmente na sequência de entrada, e o decodificador, que opera na sequência de destino e prevê o próximo item durante o treinamento. Por exemplo, um conversor pode pegar uma sequência de palavras em inglês e prever a palavra em francês na tradução correta até que seja concluída.

O codificador determina quais partes da entrada devem ser enfatizadas. Por exemplo, um codificador pode ler uma frase como "Thequickbrownfoxjumped". Em seguida, ele calcula uma matriz de incorporação (incorporações em NLP permitem que palavras com significados semelhantes tenham representações semelhantes) e a converte em uma série de vetores de atenção. Agora, o que é um vetor de atenção? Você pode pensar no vetor de atenção em um modelo Transformer como uma calculadora especial que ajuda o modelo a entender quais partes de qualquer informação são mais importantes para tomar uma decisão. Suponha que você faça várias perguntas em um exame e precise respondê-las usando diferentes informações. Os vetores de atenção ajudam você a selecionar as informações mais importantes para responder a cada pergunta. No caso do modelo transformador, funciona da mesma forma.

Um bloco de atenção de várias cabeças inicialmente produz esses vetores de atenção. Eles são então normalizados e passados ​​para uma camada totalmente conectada. Normalizado novamente antes de passar para o decodificador. Durante o treinamento, o codificador trabalha diretamente na sequência de saída de destino. Suponha que a saída de destino seja a tradução francesa da frase em inglês "Thequickbrownfoxjumped". O decodificador calcula um vetor de incorporação separado para cada palavra francesa na frase. Além disso, os codificadores de posição são aplicados na forma de funções seno e cosseno. Além disso, a atenção mascarada é usada, o que significa que a primeira palavra da frase em francês é usada, enquanto todas as outras palavras são mascaradas. Isso permite que o conversor aprenda a prever a próxima palavra em francês.

Enquanto isso, o modelo GPT emprega alguma compactação de dados enquanto consome milhões de textos de amostra, convertendo palavras em vetores que são apenas representações numéricas. Um modelo de linguagem então descompacta o texto compactado em frases amigáveis. Precisão do modelo aprimorada ao compactar e descompactar o texto. Isso também permite calcular a probabilidade condicional de cada palavra. Os modelos GPT podem ter um bom desempenho na configuração de "algumas fotos" e responder a amostras de texto vistas anteriormente. Eles precisam apenas de alguns exemplos para gerar respostas relevantes porque foram treinados em muitos exemplos de texto.

Além disso, o modelo GPT possui muitos recursos, como a geração de amostras de texto sintético de qualidade sem precedentes. Se você iniciar o modelo com uma entrada, ele gerará uma longa continuação. Os modelos GPT superam outros modelos de linguagem treinados em domínios como Wikipedia, notícias e livros sem usar dados de treinamento específicos do domínio. O GPT aprende apenas tarefas de linguagem, como compreensão de leitura, resumo e resposta a perguntas do texto, sem dados de treinamento específicos da tarefa. As pontuações para essas tarefas (“pontuação” refere-se ao valor numérico atribuído pelo modelo para representar a verossimilhança ou probabilidade de uma determinada saída ou resultado) não são as melhores, mas sugerem o uso de técnicas não supervisionadas com dados e computação suficientes para fazer o benefício da tarefa.

No GTP, a importância da rotulagem de dados é que ela é um elo fundamental no processo de transformação do grafo, que determina a precisão e a confiabilidade dos dados de entrada e saída da transformação. A anotação de dados pode ajudar os desenvolvedores a entender melhor a estrutura de dados e o fluxo de processamento no software, tornando o processo de desenvolvimento e manutenção mais eficiente e conveniente. Portanto, a importância da anotação de dados para o GTP não pode ser ignorada e é uma das chaves para o projeto e implementação do GTP.

Tecnologia JLW|Coleta de Dados|Rotulagem de Dados

Ajudando a tecnologia de inteligência artificial, capacitando a transformação inteligente e a atualização das indústrias tradicionais

Acho que você gosta

Origin blog.csdn.net/weixin_55551028/article/details/131104509
Recomendado
Clasificación