Uma nova revisão de modelos de linguagem em grande escala: o inventário mais abrangente de T5 a GPT-4, co-escrito por mais de 20 pesquisadores nacionais...

De: Coração da Máquina

Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Por que o campo do processamento de linguagem natural (PNL) de repente avançou aos trancos e barrancos como se fosse da noite para o dia, atingindo o limiar da inteligência artificial geral? Até que ponto o modelo de linguagem grande (LLM) se desenvolveu hoje? Qual será o caminho de desenvolvimento da AGI em um curto período de tempo no futuro?

Desde que o teste de Turing foi proposto na década de 1950, as pessoas vêm explorando a capacidade das máquinas de processar a inteligência da linguagem. A linguagem é essencialmente um intrincado sistema de expressão humana, governado por regras gramaticais. Portanto, desenvolver algoritmos de IA poderosos que possam entender e dominar a linguagem é um grande desafio. Nas últimas duas décadas, os métodos de modelagem de linguagem têm sido amplamente utilizados na compreensão e geração de linguagem, incluindo modelos estatísticos de linguagem e modelos neurais de linguagem.

Nos últimos anos, os pesquisadores geraram modelos de linguagem pré-treinados (PLMs) por pré-treinamento de modelos Transformer em corpora de grande escala e demonstraram recursos poderosos na resolução de várias tarefas de NLP. E os pesquisadores descobriram que o dimensionamento do modelo pode levar a melhorias de desempenho, então eles estudaram ainda mais o efeito do dimensionamento aumentando o tamanho do modelo. Curiosamente, esse modelo de linguagem maior alcança ganhos significativos de desempenho quando o tamanho do parâmetro excede um determinado nível e emerge recursos que não existem no modelo menor, como o aprendizado contextual. Para diferenciá-los dos PLMs, esses modelos são chamados de Large Language Models (LLMs).

Do Google T5 em 2019 à série OpenAI GPT, modelos grandes com explosões de parâmetros continuam surgindo. Pode-se dizer que a pesquisa sobre LLMs foi muito promovida tanto na academia quanto na indústria, especialmente o surgimento do ChatGPT, um grande modelo de diálogo no final de novembro do ano passado, atraiu a atenção de todas as esferas da vida. Os avanços tecnológicos nos LLMs tiveram um impacto importante em toda a comunidade de IA e revolucionarão a maneira como as pessoas desenvolvem e usam algoritmos de IA.

Considerando o rápido progresso tecnológico dos LLMs, mais de duas dúzias de pesquisadores da Renmin University of China revisaram o progresso mais recente dos LLMs por meio de conhecimento básico, principais descobertas e tecnologias convencionais, especialmente com foco no pré-treinamento, ajuste adaptativo e uso e avaliação de competência. Além disso, eles também resumiram e desenvolveram os recursos disponíveis dos LLMs, discutiram a direção futura do desenvolvimento e assim por diante. Esta visão geral é um recurso de aprendizado extremamente útil para pesquisadores e engenheiros da área.

69bce035d745f64c19b2e9de12f39e50.png

Link do artigo: https://arxiv.org/abs/2303.18223

Antes de entrar no texto, vejamos a linha do tempo de vários grandes modelos de linguagem (mais de 10 bilhões de parâmetros) que surgiram desde 2019. Entre eles, os grandes modelos marcados em amarelo são de código aberto.

fb6d4838f0fe8b67fa8f27d8920a1d60.png

Visão geral dos LLMs

Na primeira seção, os pesquisadores apresentam os antecedentes, capacidades e tecnologias-chave dos LLMs em detalhes.

Histórico em LLMs

Normalmente, um grande modelo de linguagem (LLM) refere-se a um modelo de linguagem contendo centenas de bilhões (ou mais) de parâmetros, que são treinados em grandes quantidades de dados de texto, como modelos GPT-3, PaLM, Galactica e LLaMA. Especificamente, o LLM é construído na arquitetura Transformer, onde as camadas de atenção multicabeça são empilhadas em uma rede neural muito profunda. O LLM existente adota principalmente uma arquitetura de modelo (ou seja, Transformer) e um alvo de pré-treinamento (ou seja, modelagem de linguagem) semelhante ao modelo de linguagem pequena. Como principal diferença, o LLM dimensiona o tamanho do modelo, os dados pré-treinamento e a computação total (fator de expansão) em grande medida. Eles podem entender melhor a linguagem natural e gerar texto de alta qualidade com base em um determinado contexto (por exemplo, prompt). Essa melhoria de capacidade pode ser descrita em parte por uma lei de escala, em que o desempenho segue aproximadamente grandes aumentos no tamanho do modelo. No entanto, certas capacidades (por exemplo, aprendizagem contextual) são imprevisíveis de acordo com as leis de escala e só podem ser observadas quando o tamanho do modelo excede um certo nível.

Capacidades emergentes de LLMs

A capacidade emergente do LLM é formalmente definida como "uma capacidade ausente em modelos pequenos, mas presente em modelos grandes", que é uma das características mais marcantes que distingue o LLM dos PLMs anteriores. Embora essa nova capacidade surja, ela também apresenta uma característica notável: em um certo nível de escala, o desempenho é significativamente maior do que o estado aleatório. Por analogia, esse novo modelo está intimamente relacionado ao fenômeno das transições de fase na física. Em princípio, essa habilidade também pode estar relacionada a algumas tarefas complexas, e as pessoas estão mais preocupadas com habilidades gerais que podem ser aplicadas para resolver várias tarefas. Aqui está uma breve introdução a três capacidades emergentes representativas do LLM:

aprendizagem contextual. O GPT-3 apresenta formalmente a capacidade de aprender o contexto: assumindo que o modelo de linguagem forneceu instruções de linguagem natural e várias descrições de tarefas, ele pode gerar a saída esperada da instância de teste completando a sequência de palavras do texto de entrada sem treinamento ou gradiente adicional atualização .

Instruções a seguir. Ao ajustar uma mistura de conjuntos de dados multitarefa formatados com descrições de linguagem natural (ou seja, instruções), os LLMs funcionam bem em pequenas tarefas que também são descritas na forma de instruções. Nessa capacidade, o ajuste de instrução permite que os LLMs executem novas tarefas ao entender as instruções da tarefa sem usar amostras explícitas, o que pode melhorar muito a generalização.

Raciocínio passo a passo. Tarefas complexas que envolvem várias etapas de raciocínio, como problemas de matemática, geralmente são difíceis para modelos de linguagem pequenos. Enquanto isso, por meio da estratégia de raciocínio da cadeia de pensamento, o LLM pode resolver essas tarefas para chegar à resposta final, explorando o mecanismo de prompt envolvendo etapas intermediárias de raciocínio. Especula-se que essa habilidade pode ser adquirida por meio de treinamento de código.

tecnologia chave

A seguir, veremos as principais tecnologias dos LLMs, incluindo dimensionamento, treinamento, estimulação de habilidades, ajuste de alinhamento, utilização de ferramentas, etc.

ampliação. O dimensionamento é um fator chave no aumento da capacidade do modelo dos LLMs. Inicialmente, o GPT-3 aumentou os parâmetros do modelo para 175 bilhões e, em seguida, o PaLM aumentou ainda mais os parâmetros do modelo para 540 bilhões. Parâmetros de grande escala são críticos para capacidades emergentes. O dimensionamento não é apenas para o tamanho do modelo, mas também relacionado ao tamanho dos dados e à computação total.

trem. Devido ao grande tamanho, é muito desafiador treinar com sucesso um LLMs com recursos poderosos. Portanto, algoritmos de treinamento distribuído são necessários para aprender os parâmetros de rede dos LLMs, geralmente usando uma combinação de várias estratégias paralelas. Para dar suporte ao treinamento distribuído, frameworks de otimização como DeepSpeed ​​​​e Megatron-LM são usados ​​para facilitar a implementação e implantação de algoritmos paralelos. Além disso, os truques de otimização são importantes para a estabilidade do treinamento e o desempenho do modelo, como reiniciar picos de perda de treinamento e treinamento de precisão mista. O recente GPT-4 desenvolveu infraestrutura especial e métodos de otimização para alavancar modelos muito menores para prever o desempenho de modelos maiores.

Capacidade de estimular. Após o pré-treinamento em corpora de grande escala, os LLMs são dotados da capacidade latente de resolver tarefas gerais. No entanto, esses recursos podem não se manifestar explicitamente quando os LLMs executam uma tarefa específica. Portanto, é muito útil projetar instruções de tarefas adequadas ou estratégias contextuais específicas para estimular essas habilidades, como o prompt da cadeia de pensamento, que ajuda a resolver tarefas complexas de raciocínio por meio de etapas intermediárias de raciocínio. Além disso, os LLMs com descrições de tarefas em linguagem natural podem ser ainda mais ajustados para melhorar a generalização para tarefas não vistas.

Afinação de alinhamento. Como os LLMs são treinados para capturar as características de dados de corpora pré-treinados (incluindo dados de alta e baixa qualidade), é provável que gerem conteúdo textual tóxico, tendencioso e prejudicial. Para alinhar os LLMs com os valores humanos, o InstructGPT projeta um método de ajuste eficiente usando aprendizado por reforço e feedback humano, permitindo que os LLMs sigam as instruções esperadas. O ChatGPT foi desenvolvido com base em técnicas do tipo InstructGPT e demonstrou fortes recursos de alinhamento na produção de respostas inofensivas e de alta qualidade.

utilização da ferramenta. Os LLMs são essencialmente geradores de texto treinados em corpora de texto simples em larga escala e, portanto, não funcionam tão bem em tarefas em que o texto é mal expresso, como computação numérica. Além disso, os recursos dos LLMs são limitados pelos dados pré-treinamento, que não podem capturar as informações mais recentes. Em resposta a esses problemas, as pessoas propõem o uso de ferramentas externas para compensar a falta de LLMs, como calculadoras podem ser usadas para cálculos precisos e mecanismos de pesquisa podem ser usados ​​para recuperar informações desconhecidas. O ChatGPT usa plug-ins externos para aprender novos conhecimentos online, e esse mecanismo pode expandir amplamente os recursos dos LLMs.

Recursos de LLMs

Desenvolver ou replicar LLMs não é uma tarefa fácil, considerando as questões técnicas desafiadoras e os enormes requisitos de recursos computacionais. Uma abordagem viável é aprender com os LLMs existentes e reutilizar recursos publicamente disponíveis para desenvolvimento incremental ou pesquisa experimental.

Na Seção III, os pesquisadores resumem principalmente pontos de verificação ou APIs de modelo de código aberto, corpora disponíveis e bibliotecas úteis para o LLM. A Tabela 1 abaixo mostra os dados estatísticos de grandes modelos com mais de 10 bilhões de parâmetros nos últimos anos.

0cff0d6af00b3b738be3b6bfe8c4beb2.png

A Tabela 2 abaixo lista as fontes de dados comumente usadas.

94d644bb4b6b5b9f6e9c3ed585c942a8.png

Pré treino

O pré-treinamento constrói a base de capacidade dos LLMs. Por meio de pré-treinamento em corpora de grande escala, os LLMs podem adquirir compreensão básica do idioma e habilidades generativas. Nesse processo, o tamanho e a qualidade do corpus de pré-treinamento são a chave para os LLMs obterem recursos poderosos. Além disso, para pré-treinar efetivamente LLMs, arquiteturas de modelo, métodos de aceleração e técnicas de otimização precisam ser cuidadosamente projetados. Na Seção IV, os pesquisadores primeiro discutem a coleta e o processamento de dados na Seção 4.1, depois introduzem arquiteturas de modelo comumente usadas na Seção 4.2 e, finalmente, introduzem técnicas de treinamento para otimização estável e eficiente de LLMs na Seção 4.3.

coleção de dados

Para desenvolver um LLM robusto, é crucial coletar uma grande quantidade de corpus de linguagem natural de várias fontes de dados. Os LLMs existentes utilizam principalmente vários conjuntos de dados de texto público como corpora de pré-treinamento. A Figura 2 abaixo lista a distribuição de fontes de dados pré-treinamento para LLMs existentes.

199d0d729b2b245f2f4d36cf00b7be1a.png

Depois de coletar uma grande quantidade de dados de texto, eles devem ser pré-treinados para construir um corpus de pré-treinamento, incluindo remoção de ruído, redundância e remoção de dados irrelevantes e potencialmente tóxicos. A Figura 3 abaixo mostra o pipeline de pré-processamento para dados de pré-treinamento para LLMs.

0c03ad24d5ed97154cae3561d0cb8405.png

arquitetura

Nesta seção, os pesquisadores revisam o projeto arquitetônico dos LLMs, ou seja, a arquitetura principal, os objetivos pré-treinamento e as configurações detalhadas. A Tabela 3 abaixo lista os modelos de cartões de vários LLMs representativos e seus detalhes publicados.

a66faeeaf7bf8934eac45f50ca0ef44f.png

Devido à sua excelente paralelização e capacidade, a arquitetura Transformer tornou-se a espinha dorsal para o desenvolvimento de vários LLMs, tornando possível escalar modelos de linguagem para centenas de bilhões de parâmetros. De um modo geral, as arquiteturas principais dos LLMs existentes podem ser divididas em três categorias, a saber, codificador-decodificador, decodificador temporal e decodificador de prefixo.

Desde que o Transformer apareceu, várias melhorias foram propostas para melhorar sua estabilidade de treinamento, desempenho e eficiência computacional. Nesta parte, os pesquisadores discutem a configuração correspondente das quatro partes principais do Transformer, incluindo normalização, codificação de posição, função de ativação, mecanismo de atenção e viés.

O pré-treinamento desempenha um papel fundamental na codificação do conhecimento geral de corpora de grande escala em parâmetros de modelo de grande escala. Para LLMs de treinamento, existem duas tarefas de pré-treinamento comumente usadas, modelagem de linguagem e autoencoders de remoção de ruído.

modelo de treinamento

Nesta seção, os pesquisadores revisam configurações importantes para treinamento de LLMs, técnicas e técnicas para treinamento de LLMs.

Para otimização de parâmetros de LLMs, os pesquisadores propõem configurações comumente usadas para treinamento em lote, taxa de aprendizado, otimizador e estabilidade de treinamento.

À medida que a escala de modelos e dados aumenta, tornou-se difícil treinar LLMs de forma eficiente com recursos de computação limitados. Em particular, dois grandes problemas técnicos precisam ser resolvidos, como aumentar o treinamento por entrada e carregar modelos maiores na memória da GPU. Esta seção analisa vários métodos amplamente usados ​​no trabalho existente para enfrentar os dois desafios acima, ou seja, paralelismo 3D, ZeRO e treinamento de precisão mista, e dá sugestões sobre como aproveitá-los para treinamento.

Ajuste adaptativo de LLMs

Após o pré-treinamento, os LLMs podem adquirir a capacidade geral de resolver várias tarefas. No entanto, um crescente corpo de pesquisa sugere que as capacidades dos LLMs podem ser ajustadas para objetivos específicos. Na Seção V, os pesquisadores detalham dois métodos principais para ajustar LLMs pré-treinados, ou seja, ajuste de instrução e ajuste de alinhamento. A primeira abordagem é principalmente para aprimorar ou desbloquear as capacidades dos LLMs, enquanto a última abordagem é alinhar o comportamento dos LLMs com valores ou preferências humanas.

ajuste de instrução

Em essência, o ajuste de instrução é um método para ajustar LLMs pré-treinados em um conjunto de exemplos formatados em linguagem natural, que está altamente relacionado ao ajuste fino supervisionado e ao treinamento de dica multitarefa. Para executar o ajuste de instrução, primeiro precisamos coletar ou construir uma instância do formato de instrução. Em seguida, normalmente usamos essas instâncias formatadas para ajustar os LLMs de maneira supervisionada (por exemplo, usando perda de sequência para sequência para treinamento). Após o ajuste de instrução, os LLMs podem demonstrar uma capacidade notável de generalizar para resolver tarefas invisíveis, mesmo em ambientes multilíngues.

Uma pesquisa recente fornece uma visão sistemática da pesquisa de ajuste de instrução. Por outro lado, este documento se concentra principalmente no impacto do ajuste de instrução em LLMs e fornece diretrizes ou estratégias detalhadas para coleta e ajuste de instâncias. Além disso, este trabalho também discute o uso de ajuste de instrução para atender às reais necessidades dos usuários, que tem sido amplamente utilizado em LLMs existentes, como InstructGPT e GPT-4.

Construção de instância formatada: Normalmente, uma instância em formato de instrução consiste em uma descrição de tarefa (chamada de instrução), pares de entrada-saída e um pequeno número de demonstrações (opcional). A pesquisa existente publicou uma grande quantidade de dados rotulados formatados em linguagem natural como um importante recurso público (consulte a Tabela 5 para obter uma lista de recursos disponíveis). Em seguida, o artigo descreve os dois principais métodos de construção de instâncias formatadas (consulte a ilustração na Figura 4) e discute vários elementos-chave da construção de instâncias.

Estratégias de ajuste de instrução: Ao contrário do pré-treinamento, o ajuste de instrução geralmente é mais eficaz porque apenas um número modesto de instâncias é usado para treinamento. Embora o ajuste de instrução possa ser pensado como um processo de treinamento supervisionado, sua otimização difere do pré-treinamento de várias maneiras, como o objetivo de treinamento (ou seja, perda de sequência para sequência) e configuração de otimização (por exemplo, tamanho de lote menor) e taxa de aprendizado), que requerem atenção especial na prática. Além dessas configurações otimizadas, o ajuste de instrução também precisa considerar dois aspectos importantes:

  • Distribuição de dados de equilíbrio.

  • Combinando ajuste de instrução e pré-treinamento.

ed16c8ce68482af8430fae648407c5cf.png

Ajuste de Alinhamento

Esta seção primeiro apresenta o histórico do alinhamento e suas definições e padrões, depois se concentra na coleta de dados de feedback humano para LLMs de alinhamento e, finalmente, discute as principais técnicas de aprendizado de reforço de feedback humano para ajuste de alinhamento.

36c9c1d678e421a28fb5964bd4e6ac48.png

usar

Após o pré-treinamento ou adaptação, uma das principais formas de usar LLMs é projetar estratégias de prompt adequadas para resolver várias tarefas. Uma abordagem rápida típica é a aprendizagem no contexto, que formula descrições de tarefas ou demonstrações na forma de texto em linguagem natural. Além disso, os métodos de sugestão de cadeia de pensamento podem melhorar a aprendizagem contextual, incorporando uma série de passos intermediários de raciocínio em prompts. Na Seção VI, os pesquisadores apresentam os detalhes dessas duas técnicas em detalhes.

aprendizagem contextual

fb27bcf96de9bddd422f0d11341fbea2.png

Como uma forma especial de prompt, a aprendizagem no contexto (ICL) foi proposta pela primeira vez no GPT-3 e tornou-se um método típico para explorar os LLMs.

cadeia de pensamento

Chain of Thought (CoT) é uma estratégia de prompt modificada que melhora o desempenho do LLM em tarefas de raciocínio complexo, como raciocínio aritmético, raciocínio de senso comum e raciocínio simbólico. Em vez de simplesmente construir prompts com pares de entrada-saída como ICL, o CoT incorpora etapas intermediárias de raciocínio que levam à saída final em prompts. Na Seção 6.2, os pesquisadores detalham o uso do CoT com ICL e discutem quando e por que o CoT é eficaz.

Avaliação de capacidade

Para estudar a eficácia e a superioridade dos LLMs, os pesquisadores utilizam um grande número de tarefas e referências para avaliação e análise empírica. A Seção VII apresenta primeiro três tarefas básicas de avaliação para LLMs para geração e compreensão de linguagem, depois apresenta várias tarefas avançadas para LLMs com configurações ou objetivos mais complexos e, finalmente, discute referências existentes e análises empíricas.

tarefas básicas de avaliação

9fcd65fdc1580421dce76da41d1ff84e.png

8b5cb6a86b64972f7bd4991e0d0c23ec.png

Figura 7: Um exemplo de exposição das alucinações internas e externas do LLM (Acessado em 19 de março de 2023). Como exemplo de alucinações internas, o LLM faz um julgamento sobre o relacionamento entre Cindy e Amy que contradiz a entrada. Para alucinações externas, o LLM parece ter uma compreensão incorreta do significado de RLHF (aprendizado por reforço com feedback humano) neste exemplo, embora entenda corretamente o significado de LLM.

Avaliação de tarefa avançada

Além das tarefas básicas de avaliação descritas acima, os LLMs exibem algumas habilidades avançadas que requerem avaliação especial. Na Seção 7.2, os pesquisadores discutem vários recursos representativos de alto nível e métodos de avaliação correspondentes, incluindo alinhamento humano, interação com o ambiente externo e manipulação de ferramentas.

Resumo e Direções Futuras

Na última seção, os pesquisadores resumem a discussão desta pesquisa e apresentam os desafios e as direções de desenvolvimento futuro dos LLMs a partir dos seguintes aspectos.

Teoria e Justificativa: Para entender o mecanismo básico de trabalho do LLM, um dos maiores mistérios é como a informação é distribuída, organizada e utilizada por redes neurais profundas muito grandes. É importante descobrir os princípios ou elementos básicos que constroem a base de competência dos LLMs. Em particular, o dimensionamento parece desempenhar um papel importante na melhoria das capacidades dos LLMs. Estudos existentes mostraram que quando a escala de parâmetros do modelo de linguagem aumenta para um ponto crítico (como 10B), algumas capacidades emergentes aparecerão de maneira inesperada (um salto repentino no desempenho), normalmente incluindo aprendizado de contexto, acompanhamento de instruções e etapas raciocínio passo a passo. Esses recursos "emergentes" são fascinantes, mas também intrigantes: quando e como os LLMs os adquirem? Vários estudos recentes ou empreenderam uma ampla gama de experiências, investigando os efeitos de capacidades emergentes e os contribuintes para essas capacidades, ou usaram estruturas teóricas existentes para explicar algumas capacidades específicas. Uma postagem técnica perspicaz voltada para a família de modelos GPT também é dedicada a esse tópico, no entanto, ainda faltam teorias e princípios mais formais para entender, descrever e explicar os recursos ou o comportamento dos LLMs. Devido à estreita semelhança entre a capacidade emergente e as transições de fase na natureza, teorias ou princípios interdisciplinares, como se os LLMs podem ser vistos como algum tipo de sistema complexo, podem ser úteis para explicar e entender o comportamento dos LLMs. Essas questões fundamentais merecem ser exploradas pela comunidade de pesquisa e são importantes para o desenvolvimento da próxima geração de LLMs.

Arquitetura do modelo: Os transformadores que consistem em camadas de auto-atenção empilhadas de várias cabeças tornaram-se uma arquitetura comum para a construção de LLMs devido à escalabilidade e eficácia. Várias estratégias têm sido propostas para melhorar o desempenho dessa arquitetura, como configuração de rede neural e treinamento paralelo escalável (discutido na Seção 4.2.2). Para melhorar ainda mais a capacidade do modelo (como a capacidade de diálogo multi-turno), os LLMs existentes geralmente mantêm um longo comprimento de contexto, por exemplo, GPT-4-32k tem um comprimento de contexto muito grande de 32.768 tokens. Portanto, uma consideração prática é reduzir a complexidade do tempo (custo quadrático bruto) incorrido pelos mecanismos padrão de auto-atenção.

Além disso, é importante estudar o impacto de variantes de transformadores mais eficientes na construção de LLMs, como atenção esparsa usada para GPT-3. O esquecimento catastrófico também tem sido um desafio para as redes neurais, o que também afeta negativamente os LLMs. Ao ajustar os LLMs com novos dados, é provável que o conhecimento aprendido anteriormente seja destruído, por exemplo, o ajuste fino dos LLMs de acordo com algumas tarefas específicas afetará sua capacidade geral. Uma situação semelhante surge quando os LLMs se alinham com os valores humanos, conhecido como imposto de alinhamento. Portanto, é necessário considerar a extensão da arquitetura existente com mecanismos ou módulos mais flexíveis para suportar efetivamente a atualização de dados e a especialização de tarefas.

Treinamento de modelo: Na prática, o pré-treinamento de LLMs utilizáveis ​​é muito difícil devido à enorme carga computacional e sensibilidade à qualidade dos dados e habilidades de treinamento. Portanto, torna-se particularmente importante desenvolver métodos de pré-treinamento mais sistemáticos e econômicos para otimizar os LLMs, considerando fatores como eficácia do modelo, otimização da eficiência e estabilidade do treinamento. Desenvolva mais verificação de modelos ou diagnósticos de desempenho (como dimensionamento preditivo em GPT-4) para detectar anomalias iniciais no treinamento. Além disso, também requer suporte de hardware mais flexível ou mecanismo de agendamento de recursos para melhor organizar e utilizar os recursos no cluster de computação. Devido ao alto custo do pré-treinamento de LLMs a partir do zero, é imperativo criar um mecanismo adequado para pré-treinar ou ajustar continuamente os LLMs de acordo com os pontos de verificação do modelo disponíveis publicamente, como LLaMA e Flan-T5. Para fazer isso, várias questões técnicas devem ser abordadas, incluindo inconsistências de dados, esquecimento catastrófico e especialização de tarefas. Até agora, o ponto de verificação do modelo de código aberto com pré-processamento completo e logs de treinamento (como scripts para preparar dados pré-treinados) para LLMs reproduzíveis ainda está faltando. Seria muito valioso fornecer mais modelos de código aberto para a pesquisa de LLMs. Além disso, também é importante desenvolver estratégias de ajuste mais aprimoradas e estudar o mecanismo de motivar efetivamente a capacidade do modelo.

Uso de modelos: devido ao alto custo de ajuste fino na prática, os prompts surgiram como um método proeminente para o uso de LLMs. Ao incorporar descrições de tarefas e exemplos de demonstração em prompts, o aprendizado contextual (uma forma especial de prompts) confere aos LLMs um bom desempenho em novas tarefas, superando até mesmo modelos de dados completos ajustados em alguns casos. Além disso, para melhorar a capacidade de raciocínio complexo, técnicas avançadas de prompts foram propostas, como a estratégia Chain of Thought (CoT), que incorpora etapas intermediárias de raciocínio em prompts. No entanto, o método prompt existente ainda possui as seguintes deficiências. Primeiro, requer muita mão de obra ao projetar prompts, portanto, seria muito útil gerar automaticamente prompts eficazes para resolver várias tarefas; segundo, algumas tarefas complexas (como provas formais e cálculos numéricos) exigem conhecimento específico ou regras lógicas. tais conhecimentos ou regras podem não ser descritos em linguagem natural ou demonstrados com exemplos, é importante desenvolver métodos de prompt formatados para tarefas mais informativos e flexíveis; terceiro, as estratégias de prompt existentes se concentram principalmente no desempenho, portanto, é útil desenvolver mecanismos de prompt interativos para resolver tarefas complexas, como por meio de diálogo em linguagem natural, conforme demonstrado pelo ChatGPT.

Segurança e alinhamento: embora os LLMs sejam bastante capazes, suas preocupações de segurança são semelhantes às dos modelos de linguagem pequenos. Por exemplo, os LLMs mostram uma tendência a alucinar textos, como aqueles que parecem plausíveis, mas podem não ser verdadeiros. Pior, os LLMs podem ser motivados por instruções intencionais para gerar texto prejudicial, tendencioso ou venenoso para sistemas maliciosos, levando a riscos potenciais de uso indevido. Para uma discussão detalhada de outras preocupações de segurança dos LLMs (como privacidade, excesso de confiança, desinformação e operações de influência), os leitores devem consultar o relatório técnico GPT-3/4. Como principal abordagem para evitar esses problemas, o aprendizado por reforço com feedback humano (RLHF) tem sido amplamente utilizado, o que incorpora seres humanos no ciclo de treinamento para desenvolver bons LLMs. Para melhorar a segurança do modelo, também é importante incluir prompts relacionados à segurança no processo RLHF, conforme mostrado na GPT-4. No entanto, o RLHF depende muito de dados de feedback humano de alta qualidade de rotuladores profissionais, dificultando sua implementação correta na prática. Portanto, é necessário aprimorar o framework RLHF para reduzir o trabalho de rotuladores humanos e buscar um método de anotação mais eficiente para garantir a qualidade dos dados, por exemplo, LLMs podem ser utilizados para auxiliar o trabalho de rotulagem. Recentemente, o red teaming foi adotado para melhorar a segurança do modelo de LLMs, que utiliza prompts adversários coletados para refinar os LLMs (ou seja, evitar ataques de red teaming). Além disso, também é significativo estabelecer o mecanismo de aprendizado dos LLMs por meio da comunicação com os humanos, e o feedback dado pelos humanos por meio do bate-papo pode ser utilizado diretamente pelos LLMs para autoaperfeiçoamento.

Aplicativos e ecossistema: Como os LLMs demonstraram fortes capacidades na resolução de várias tarefas, eles podem ser aplicados a uma ampla gama de aplicativos do mundo real (por exemplo, seguindo instruções específicas de linguagem natural). Como um avanço notável, o ChatGPT mudou potencialmente a forma como os humanos obtêm informações, o que traz o lançamento do novo Bing. Num futuro próximo, é previsível que os LLMs tenham um grande impacto nas tecnologias de pesquisa de informação, incluindo motores de busca e sistemas de reconhecimento.

Além disso, com a atualização técnica dos LLMs, o desenvolvimento e o uso de assistentes de informação inteligentes serão amplamente promovidos. Em escala mais ampla, essa onda de inovação tecnológica tende a construir um ecossistema de aplicativos potencializados por LLMs (por exemplo, o suporte a plugins do ChatGPT), que estarão intimamente relacionados à vida humana. Finalmente, a ascensão dos LLMs lança luz sobre a exploração da inteligência artificial geral (AGI). Ele promete desenvolver sistemas mais inteligentes (possivelmente com sinais multimodais) do que nunca. Ao mesmo tempo, nesse processo de desenvolvimento, a segurança da inteligência artificial deve ser uma das principais preocupações, ou seja, deixar que a inteligência artificial traga benefícios aos seres humanos e não danos.


Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Junte-se ao planeta, você receberá:

1.  Atualize 3-5 leituras de velocidade de papel mais recentes e de alta qualidade todos os dias

2.  Os materiais de aprendizagem introdutórios e avançados mais recentes

4.  Informações diárias de recrutamento 1-3 para cargos de IA, como PNL, pesquisa, promoção e promoção e CV

7efbd522d9ea13d5d736b0f82ab7ddf1.png

Acho que você gosta

Origin blog.csdn.net/qq_27590277/article/details/130002775
Recomendado
Clasificación