[Leitura do artigo 72] Aprendizado de transferência com eficiência de parâmetros para PNL

1. Informações básicas

tema Autor do artigo e unidade fonte anos
Aprendizado de transferência com eficiência de parâmetros para PNL Neil Houlsby et al Google Research, Jagiellonian University - Polônia PMLR 2019

Houlsby N, Giurgiu A, Jastrzebski S, et al. Aprendizagem de transferência com eficiência de parâmetros para NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

Link do artigo: http://proceedings.mlr.press/v97/houlsby19a.html

Código da tese:

2. Pontos-chave

Tópicos de pesquisa fundo do problema Fluxo do método principal destaques conjunto de dados para concluir tipo de tese palavras-chave
Ajuste fino do modelo grande Parâmetros de ajuste fino ineficientes ou inválidos Proponha o módulo Adaptador. Com base no modelo de Bert para realizar experimentos, 26 tarefas de classificação diferentes. Apenas um pequeno número de parâmetros treináveis ​​é adicionado para cada tarefa.Os parâmetros da rede anterior são fixos e os parâmetros são altamente multiplexados. 26 categorias. Inclui o benchmark GLUE. No caso de treinar poucos parâmetros, pode se aproximar do efeito de treinar parâmetros completos. O adaptador marcou 80,0 no GLUE e 80,4 no ajuste fino completo. método modelo PETL,Adaptador

O objetivo da introdução do Adaptador: Para N tarefas, o ajuste fino completo do modelo requer N x o número de parâmetros do modelo pré-treinado. No entanto, o objetivo do Adapter é obter o mesmo desempenho do ajuste fino, mas o treinamento total dos parâmetros é menor, idealmente próximo a 1 ×.

3. Modelo (conteúdo principal)

A estrutura de combinação de adaptador e transformador.

Adicionado em dois locais no Transformer, um após a projeção e outro após as duas camadas avançadas;

Como um gargalo para cada camada do Adaptador. Seus parâmetros são muito menores do que o modelo original, e também inclui conexão de salto, apenas a parte verde é atualizada.

p9Ti0yV.png

4. Experiência e Análise

Plataforma AutoML para experimentos.

4.1 Conjunto de dados

benchmark GLUE

17 dados públicos

SQUAD respondendo a perguntas

4.2 Resultados do benchmark GLUE

GLUE marcou 80,0 e ajustou totalmente 80,4.

O parâmetro de ajuste total do modelo BERT_LARGE é 9,0 x , o que significa que a soma dessas 9 tarefas deve ser ajustada;

O melhor efeito dos adaptadores é 80,0, e a quantidade total de parâmetros é apenas 1,3 vezes dos parâmetros do modelo original, e os parâmetros de treinamento são apenas 3,6%.

p9TmSvd.png

5. Resumo

Um modelo de adaptador combinado com um transformador é proposto, o qual pode atingir o efeito de ajuste completo com poucos parâmetros no treinamento. A ideia é muito boa e o efeito é relativamente bom.

Acho que você gosta

Origin blog.csdn.net/ld326/article/details/130827854
Recomendado
Clasificación