© Autor|Wang Xiaolei
Instituição|Renmin University of China
Direções | Acesso à informação conversacional
Por | RUC AI Box
Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)
Este artigo classifica os artigos relacionados a grandes modelos de linguagem publicados nas principais conferências desde 2022.
guia
No final do ano passado, o ChatGPT lançado pela OpenAI tornou-se popular em todo o mundo em apenas alguns meses. Este modelo de linguagem em larga escala baseado em GPT-3.5 tem capacidade de geração e compreensão de linguagem natural incrível e pode executar tarefas como diálogo, tradução e resumo como humanos. Devido ao seu excelente desempenho, o ChatGPT e o grande modelo de linguagem por trás dele rapidamente se tornaram um tema quente no campo da inteligência artificial, atraindo a atenção e a participação de um grande número de pesquisadores e desenvolvedores.
Este artigo classifica 100 artigos relacionados a grandes modelos de linguagem publicados nas principais conferências (ACL, EMNLP, ICLR, ICML, NeurIPS, etc.) em 2022 . A lista de artigos foi atualizada de forma síncrona para o depósito do Github (https://github.com/RUCAIBox/Top-conference-paper-list) , bem-vindo para prestar atenção e Star.
Catálogo (catálogo)
Treinamento【Treinamento】
Pré-treinamento [pré-treinamento]
Ajuste de instrução [ajuste fino de instrução]
Utilização
Aprendizagem no Contexto【Aprendizagem Contextual】
Sugestão de Cadeia de Pensamento [Dicas para Cadeia de Pensamento]
Compressão [compressão]
Outros【Outros】
Aplicação [aplicação]
Multimodal【Multimodal】
Código [código]
Recuperação [recuperação]
Geração de texto [geração de texto]
Outros【Outros】
Análise e Avaliação【Análise e Avaliação】
Treinamento【Treinamento】
Pré-treinamento [pré-treinamento]
UL2: Unificando Paradigmas de Aprendizagem de Idiomas
Aprendendo a desenvolver modelos pré-treinados para treinamento eficiente de transformadores
Modelagem Eficiente de Linguagem em Grande Escala com Misturas de Especialistas
Conhecimento no Contexto: Rumo a Modelos de Linguagem Semiparamétricos Conhecimentos
CodeGen: Um Modelo de Linguagem Aberta para Código com Síntese de Programa Multi-Turn
InCoder: um modelo generativo para preenchimento e síntese de código
CodeBPE: Investigando opções de subtokenização para pré-treinamento de modelo de linguagem grande no código-fonte
CodeRetriever: um método de pré-treinamento contrastivo em larga escala para pesquisa de código
UniMax: amostragem de idioma mais justa e eficaz para pré-treinamento multilíngue em larga escala
GLM-130B: um modelo pré-treinado bilíngue aberto
Quando FLUE encontra FLANG: benchmarks e grande modelo de linguagem pré-treinado para domínio financeiro
Ajuste de instrução [ajuste fino de instrução]
O que torna o aprendizado de instrução difícil? Uma investigação e um novo desafio em um ambiente sintético
InstructDial: Melhorando a generalização de zero e poucos tiros no diálogo por meio do ajuste de instrução
Instruções de aprendizado com dados não rotulados para generalização de tarefas cruzadas com tiro zero
Super-NaturalInstructions: Generalização por meio de instruções declarativas em mais de 1600 tarefas de PNL
Impulsionando a geração de linguagem natural a partir de instruções com meta-aprendizagem
Ajude-me a escrever um poema - ajuste de instrução como um veículo para escrita de poesia colaborativa
Prompt baseado em instrução multitarefa para reconhecimento de falácia
Nem todas as tarefas nascem iguais: entendendo a generalização de tiro zero
HypeR: o treinamento hiperpromptado multitarefa permite a generalização da recuperação em larga escala
Utilização
Aprendizagem no Contexto【Aprendizagem Contextual】
Qual algoritmo de aprendizado é aprendizado no contexto? Investigações com modelos lineares
Pergunte-me qualquer coisa: uma estratégia simples para solicitar modelos de linguagem
Grandes modelos de linguagem são engenheiros de prompt de nível humano
Usando demonstrações e instruções de linguagem para aprender com eficiência tarefas robóticas
Solicitação kNN: aprendizado além do contexto com inferência de vizinho mais próximo sem calibração
Adivinhe a instrução! A aprendizagem invertida torna os modelos de linguagem mais fortes para os alunos de tiro zero
A anotação seletiva torna os modelos de linguagem melhores.
Seleção de exemplo ativo para aprendizado no contexto
Repensando o papel das demonstrações: o que faz a aprendizagem em contexto funcionar?
Aprendizagem no Contexto para Rastreamento de Estado de Diálogo de Poucos Planos
Resolução de anáfora de poucas tomadas em protocolos científicos por meio de misturas de especialistas no contexto
ProGen: geração progressiva de conjunto de dados zero-shot via feedback no contexto
Simulação de diálogo controlável com aprendizado no contexto
Pensando em GPT-3 In-Context Learning for Biomedical IE? Pense de novo
XRICL: Aprendizagem contextual aumentada de recuperação multilíngue para análise semântica de texto para SQL multilíngue
Sobre a lacuna de generalização composicional da aprendizagem no contexto
Rumo à avaliação não especializada no contexto da geração de reflexão para conversas de aconselhamento
Rumo à identificação de quadros de moralidade em poucos disparos usando aprendizado no contexto
Sugestão de Cadeia de Pensamento [Dicas para Cadeia de Pensamento]
ReAct: sinergia entre raciocínio e ação em modelos de linguagem
Inferência de Seleção: Explorando Grandes Modelos de Linguagem para Raciocínio Lógico Interpretável
Planejamento Processual Neuro-Simbólico com Sugestão de Senso Comum
Modelos de linguagem são raciocinadores gananciosos: uma análise formal sistemática da cadeia de pensamento
PINTO: Raciocínio de Linguagem Fiel Usando Raciocínios Gerados por Prompt
Solicitação Decomposta: Uma Abordagem Modular para Resolver Tarefas Complexas
Prompt baseado em complexidade para raciocínio em várias etapas
Cadeia Automática de Sugestão de Pensamento em Grandes Modelos de Linguagem
Análise semântica de composição com modelos de linguagem grandes
A autoconsistência melhora o raciocínio da cadeia de pensamento em modelos de linguagem
A solicitação do mínimo para o máximo permite raciocínio complexo em modelos de linguagem grandes
Entailer: respondendo a perguntas com cadeias de raciocínio fiéis e verdadeiras
Modelos de linguagem pré-treinados de solicitação iterativa para cadeia de pensamento
ConvFinQA: Explorando a Cadeia de Raciocínio Numérico na Resposta a Perguntas de Finanças Conversacionais
Lógicas de linguagem natural induzida e tokens de marcação intercalados permitem a extrapolação em modelos de linguagem grandes
Compressão [compressão]
Compreendendo e aprimorando a destilação de conhecimento para treinamento de reconhecimento de quantização de codificadores de transformadores grandes
O Cirurgião BERT Ideal: Redução de Segunda Ordem Escalável e Precisa para Grandes Modelos de Linguagem
AlphaTuning: adaptação eficiente de parâmetros com reconhecimento de quantização de modelos de linguagem pré-treinados em grande escala
Outros【Outros】
BBTv2: rumo a um futuro livre de gradientes com grandes modelos de linguagem
Representações de tarefas composicionais para modelos de linguagem grandes
Ajuste fino apenas duas vezes: privacidade diferencial seletiva para modelos de linguagem grandes
Aplicação [aplicação]
Multimodal【Multimodal】
Classificação visual por meio de descrição de modelos de linguagem grandes
Modelos Socráticos: Compondo o Raciocínio Multimodal Zero-Shot com a Linguagem
VQA plug-and-play: VQA zero-shot combinando grandes modelos pré-treinados com treinamento zero
Código [código]
DocPrompting: gerando código recuperando os documentos
Planejamento com grandes modelos de linguagem para geração de código
CodeT: Geração de Código com Testes Gerados
Modelos de linguagem podem aprender a programar melhor
Recuperação [recuperação]
Promptagator: Recuperação densa de poucos disparos de 8 exemplos
Modelos de linguagem aumentada por recitação
Gerar em vez de recuperar: grandes modelos de linguagem são fortes geradores de contexto
QUILL: intenção de consulta com modelos de linguagem grandes usando aumento de recuperação e destilação em vários estágios
Geração de texto [geração de texto]
Gerando sequências aprendendo a se autocorrigir
RankGen: Melhorando a Geração de Texto com Grandes Modelos de Classificação
Extraindo conhecimento de grandes modelos pré-treinados para conversas baseadas em conhecimento não supervisionadas
Outros【Outros】
Retificação Sistemática de Modelos de Linguagem por meio de Análise de Fim de Linha
Design de recompensa com modelos de linguagem
Modelos de linguagem bidirecionais também são aprendizes de poucos tiros
Composição de conjuntos de modelos pré-treinados via consenso iterativo
Modelos de Linguagem de Ligação em Linguagens Simbólicas
Mind's Eye: Raciocínio de Modelo de Linguagem Fundamentado por meio de Simulação
Análise e Avaliação【Análise e Avaliação】
WikiPorquê: respondendo e explicando questões de causa e efeito
ROSCOE: um conjunto de métricas para pontuar o raciocínio passo a passo
Quantificando a memorização em modelos de linguagem neural
Memória de edição em massa em um transformador
Avaliação Multilíngue de Modelos de Geração de Código
STREET: UM BENCHMARK DE RAZÃO E EXPLICAÇÃO ESTRUTURADA PARA MULTI-TAREFAS
Aproveitando grandes modelos de linguagem para respostas a perguntas de múltipla escolha
Leis de escala neural quebradas
Os modelos de linguagem são raciocinadores de cadeia de pensamento multilíngues
Modelos de linguagem são geradores de dados tabulares realistas
Ambigüidade de Tarefas em Humanos e Modelos de Linguagem
Descobrindo conhecimento latente em modelos de linguagem sem supervisão
Solicitando que o GPT-3 seja confiável
Modelos de linguagem grandes são extratores de informações clínicas de poucos disparos
Como grandes modelos de linguagem estão transformando o plágio de paráfrase de máquina
Teoria Neural da Mente? Sobre os limites da inteligência social em grandes LMs
SLING: Avaliação Sino Linguística de Grandes Modelos de Linguagem
Uma investigação sistemática do conhecimento de senso comum em grandes modelos de linguagem
A generalização lexical melhora com modelos maiores e treinamento mais longo
O que grandes modelos de linguagem aprendem além da linguagem?
Sondagem para compreensão de classes e alternâncias de verbos em inglês em grandes modelos de linguagem pré-treinados
Entre no grupo NLP —> junte-se ao grupo de troca NLP (observação nips/emnlp/nlpcc entra no grupo de contribuição correspondente)
Continue a divulgar as informações mais recentes, como interpretação de documentos diários de alta qualidade do NLP de processamento de linguagem natural, informações relevantes em primeira mão, posições de algoritmos de IA, etc.
Junte-se ao planeta, você receberá:
1. Atualize 3-5 leituras de velocidade de papel mais recentes e de alta qualidade todos os dias
2. Os materiais de aprendizagem introdutórios e avançados mais recentes
4. Informações diárias de recrutamento 1-3 para cargos de IA, como PNL, pesquisa, promoção e promoção e CV