Centenas de artigos examinam o progresso mais recente da pesquisa de modelos de linguagem em grande escala

 © Autor|Wang Xiaolei 

  Instituição|Renmin University of China  

 Direções | Acesso à informação conversacional  

Por | RUC AI Box  

Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Este artigo classifica os artigos relacionados a grandes modelos de linguagem publicados nas principais conferências desde 2022.

guia

No final do ano passado, o ChatGPT lançado pela OpenAI tornou-se popular em todo o mundo em apenas alguns meses. Este modelo de linguagem em larga escala baseado em GPT-3.5 tem capacidade de geração e compreensão de linguagem natural incrível e pode executar tarefas como diálogo, tradução e resumo como humanos. Devido ao seu excelente desempenho, o ChatGPT e o grande modelo de linguagem por trás dele rapidamente se tornaram um tema quente no campo da inteligência artificial, atraindo a atenção e a participação de um grande número de pesquisadores e desenvolvedores.

Este artigo classifica 100 artigos relacionados a grandes modelos de linguagem publicados nas principais conferências (ACL, EMNLP, ICLR, ICML, NeurIPS, etc.) em 2022 . A lista de artigos foi atualizada de forma síncrona para o depósito do Github (https://github.com/RUCAIBox/Top-conference-paper-list) , bem-vindo para prestar atenção e Star.

Catálogo (catálogo)

  • Treinamento【Treinamento】

    • Pré-treinamento [pré-treinamento]

    • Ajuste de instrução [ajuste fino de instrução]

  • Utilização

    • Aprendizagem no Contexto【Aprendizagem Contextual】

    • Sugestão de Cadeia de Pensamento [Dicas para Cadeia de Pensamento]

    • Compressão [compressão]

    • Outros【Outros】

  • Aplicação [aplicação]

    • Multimodal【Multimodal】

    • Código [código]

    • Recuperação [recuperação]

    • Geração de texto [geração de texto]

    • Outros【Outros】

  • Análise e Avaliação【Análise e Avaliação】

Treinamento【Treinamento】

Pré-treinamento [pré-treinamento]

  • UL2: Unificando Paradigmas de Aprendizagem de Idiomas

  • Aprendendo a desenvolver modelos pré-treinados para treinamento eficiente de transformadores

  • Modelagem Eficiente de Linguagem em Grande Escala com Misturas de Especialistas

  • Conhecimento no Contexto: Rumo a Modelos de Linguagem Semiparamétricos Conhecimentos

  • CodeGen: Um Modelo de Linguagem Aberta para Código com Síntese de Programa Multi-Turn

  • InCoder: um modelo generativo para preenchimento e síntese de código

  • CodeBPE: Investigando opções de subtokenização para pré-treinamento de modelo de linguagem grande no código-fonte

  • CodeRetriever: um método de pré-treinamento contrastivo em larga escala para pesquisa de código

  • UniMax: amostragem de idioma mais justa e eficaz para pré-treinamento multilíngue em larga escala

  • GLM-130B: um modelo pré-treinado bilíngue aberto

  • Quando FLUE encontra FLANG: benchmarks e grande modelo de linguagem pré-treinado para domínio financeiro

Ajuste de instrução [ajuste fino de instrução]

  • O que torna o aprendizado de instrução difícil? Uma investigação e um novo desafio em um ambiente sintético

  • InstructDial: Melhorando a generalização de zero e poucos tiros no diálogo por meio do ajuste de instrução

  • Instruções de aprendizado com dados não rotulados para generalização de tarefas cruzadas com tiro zero

  • Super-NaturalInstructions: Generalização por meio de instruções declarativas em mais de 1600 tarefas de PNL

  • Impulsionando a geração de linguagem natural a partir de instruções com meta-aprendizagem

  • Ajude-me a escrever um poema - ajuste de instrução como um veículo para escrita de poesia colaborativa

  • Prompt baseado em instrução multitarefa para reconhecimento de falácia

  • Nem todas as tarefas nascem iguais: entendendo a generalização de tiro zero

  • HypeR: o treinamento hiperpromptado multitarefa permite a generalização da recuperação em larga escala

Utilização

Aprendizagem no Contexto【Aprendizagem Contextual】

  • Qual algoritmo de aprendizado é aprendizado no contexto? Investigações com modelos lineares

  • Pergunte-me qualquer coisa: uma estratégia simples para solicitar modelos de linguagem

  • Grandes modelos de linguagem são engenheiros de prompt de nível humano

  • Usando demonstrações e instruções de linguagem para aprender com eficiência tarefas robóticas

  • Solicitação kNN: aprendizado além do contexto com inferência de vizinho mais próximo sem calibração

  • Adivinhe a instrução! A aprendizagem invertida torna os modelos de linguagem mais fortes para os alunos de tiro zero

  • A anotação seletiva torna os modelos de linguagem melhores.

  • Seleção de exemplo ativo para aprendizado no contexto

  • Repensando o papel das demonstrações: o que faz a aprendizagem em contexto funcionar?

  • Aprendizagem no Contexto para Rastreamento de Estado de Diálogo de Poucos Planos

  • Resolução de anáfora de poucas tomadas em protocolos científicos por meio de misturas de especialistas no contexto

  • ProGen: geração progressiva de conjunto de dados zero-shot via feedback no contexto

  • Simulação de diálogo controlável com aprendizado no contexto

  • Pensando em GPT-3 In-Context Learning for Biomedical IE? Pense de novo

  • XRICL: Aprendizagem contextual aumentada de recuperação multilíngue para análise semântica de texto para SQL multilíngue

  • Sobre a lacuna de generalização composicional da aprendizagem no contexto

  • Rumo à avaliação não especializada no contexto da geração de reflexão para conversas de aconselhamento

  • Rumo à identificação de quadros de moralidade em poucos disparos usando aprendizado no contexto

Sugestão de Cadeia de Pensamento [Dicas para Cadeia de Pensamento]

  • ReAct: sinergia entre raciocínio e ação em modelos de linguagem

  • Inferência de Seleção: Explorando Grandes Modelos de Linguagem para Raciocínio Lógico Interpretável

  • Planejamento Processual Neuro-Simbólico com Sugestão de Senso Comum

  • Modelos de linguagem são raciocinadores gananciosos: uma análise formal sistemática da cadeia de pensamento

  • PINTO: Raciocínio de Linguagem Fiel Usando Raciocínios Gerados por Prompt

  • Solicitação Decomposta: Uma Abordagem Modular para Resolver Tarefas Complexas

  • Prompt baseado em complexidade para raciocínio em várias etapas

  • Cadeia Automática de Sugestão de Pensamento em Grandes Modelos de Linguagem

  • Análise semântica de composição com modelos de linguagem grandes

  • A autoconsistência melhora o raciocínio da cadeia de pensamento em modelos de linguagem

  • A solicitação do mínimo para o máximo permite raciocínio complexo em modelos de linguagem grandes

  • Entailer: respondendo a perguntas com cadeias de raciocínio fiéis e verdadeiras

  • Modelos de linguagem pré-treinados de solicitação iterativa para cadeia de pensamento

  • ConvFinQA: Explorando a Cadeia de Raciocínio Numérico na Resposta a Perguntas de Finanças Conversacionais

  • Lógicas de linguagem natural induzida e tokens de marcação intercalados permitem a extrapolação em modelos de linguagem grandes

Compressão [compressão]

  • Compreendendo e aprimorando a destilação de conhecimento para treinamento de reconhecimento de quantização de codificadores de transformadores grandes

  • O Cirurgião BERT Ideal: Redução de Segunda Ordem Escalável e Precisa para Grandes Modelos de Linguagem

  • AlphaTuning: adaptação eficiente de parâmetros com reconhecimento de quantização de modelos de linguagem pré-treinados em grande escala

Outros【Outros】

  • BBTv2: rumo a um futuro livre de gradientes com grandes modelos de linguagem

  • Representações de tarefas composicionais para modelos de linguagem grandes

  • Ajuste fino apenas duas vezes: privacidade diferencial seletiva para modelos de linguagem grandes

Aplicação [aplicação]

Multimodal【Multimodal】

  • Classificação visual por meio de descrição de modelos de linguagem grandes

  • Modelos Socráticos: Compondo o Raciocínio Multimodal Zero-Shot com a Linguagem

  • VQA plug-and-play: VQA zero-shot combinando grandes modelos pré-treinados com treinamento zero

Código [código]

  • DocPrompting: gerando código recuperando os documentos

  • Planejamento com grandes modelos de linguagem para geração de código

  • CodeT: Geração de Código com Testes Gerados

  • Modelos de linguagem podem aprender a programar melhor

Recuperação [recuperação]

  • Promptagator: Recuperação densa de poucos disparos de 8 exemplos

  • Modelos de linguagem aumentada por recitação

  • Gerar em vez de recuperar: grandes modelos de linguagem são fortes geradores de contexto

  • QUILL: intenção de consulta com modelos de linguagem grandes usando aumento de recuperação e destilação em vários estágios

Geração de texto [geração de texto]

  • Gerando sequências aprendendo a se autocorrigir

  • RankGen: Melhorando a Geração de Texto com Grandes Modelos de Classificação

  • Extraindo conhecimento de grandes modelos pré-treinados para conversas baseadas em conhecimento não supervisionadas

Outros【Outros】

  • Retificação Sistemática de Modelos de Linguagem por meio de Análise de Fim de Linha

  • Design de recompensa com modelos de linguagem

  • Modelos de linguagem bidirecionais também são aprendizes de poucos tiros

  • Composição de conjuntos de modelos pré-treinados via consenso iterativo

  • Modelos de Linguagem de Ligação em Linguagens Simbólicas

  • Mind's Eye: Raciocínio de Modelo de Linguagem Fundamentado por meio de Simulação

Análise e Avaliação【Análise e Avaliação】

  • WikiPorquê: respondendo e explicando questões de causa e efeito

  • ROSCOE: um conjunto de métricas para pontuar o raciocínio passo a passo

  • Quantificando a memorização em modelos de linguagem neural

  • Memória de edição em massa em um transformador

  • Avaliação Multilíngue de Modelos de Geração de Código

  • STREET: UM BENCHMARK DE RAZÃO E EXPLICAÇÃO ESTRUTURADA PARA MULTI-TAREFAS

  • Aproveitando grandes modelos de linguagem para respostas a perguntas de múltipla escolha

  • Leis de escala neural quebradas

  • Os modelos de linguagem são raciocinadores de cadeia de pensamento multilíngues

  • Modelos de linguagem são geradores de dados tabulares realistas

  • Ambigüidade de Tarefas em Humanos e Modelos de Linguagem

  • Descobrindo conhecimento latente em modelos de linguagem sem supervisão

  • Solicitando que o GPT-3 seja confiável

  • Modelos de linguagem grandes são extratores de informações clínicas de poucos disparos

  • Como grandes modelos de linguagem estão transformando o plágio de paráfrase de máquina

  • Teoria Neural da Mente? Sobre os limites da inteligência social em grandes LMs

  • SLING: Avaliação Sino Linguística de Grandes Modelos de Linguagem

  • Uma investigação sistemática do conhecimento de senso comum em grandes modelos de linguagem

  • A generalização lexical melhora com modelos maiores e treinamento mais longo

  • O que grandes modelos de linguagem aprendem além da linguagem?

  • Sondagem para compreensão de classes e alternâncias de verbos em inglês em grandes modelos de linguagem pré-treinados


Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)

Continue a divulgar as informações mais recentes, como interpretação de documentos diários de alta qualidade do NLP de processamento de linguagem natural, informações relevantes em primeira mão, posições de algoritmos de IA, etc.

Junte-se ao planeta, você receberá:

1.  Atualize 3-5 leituras de velocidade de papel mais recentes e de alta qualidade todos os dias

2.  Os materiais de aprendizagem introdutórios e avançados mais recentes

4.  Informações diárias de recrutamento 1-3 para cargos de IA, como PNL, pesquisa, promoção e promoção e CV

ed58a82e0b5d0ec4640aa8ddd3a91174.png

Acho que você gosta

Origin blog.csdn.net/qq_27590277/article/details/130002786
Recomendado
Clasificación