1. Informações básicas
tema | Autor do artigo e unidade | fonte | anos |
---|---|---|---|
Aprendizado de transferência com eficiência de parâmetros para PNL | Neil Houlsby et al Google Research, Jagiellonian University - Polônia | PMLR | 2019 |
Houlsby N, Giurgiu A, Jastrzebski S, et al. Aprendizagem de transferência com eficiência de parâmetros para NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.
Link do artigo: http://proceedings.mlr.press/v97/houlsby19a.html
Código da tese:
2. Pontos-chave
Tópicos de pesquisa | fundo do problema | Fluxo do método principal | destaques | conjunto de dados | para concluir | tipo de tese | palavras-chave |
---|---|---|---|---|---|---|---|
Ajuste fino do modelo grande | Parâmetros de ajuste fino ineficientes ou inválidos | Proponha o módulo Adaptador. Com base no modelo de Bert para realizar experimentos, 26 tarefas de classificação diferentes. | Apenas um pequeno número de parâmetros treináveis é adicionado para cada tarefa.Os parâmetros da rede anterior são fixos e os parâmetros são altamente multiplexados. | 26 categorias. Inclui o benchmark GLUE. | No caso de treinar poucos parâmetros, pode se aproximar do efeito de treinar parâmetros completos. O adaptador marcou 80,0 no GLUE e 80,4 no ajuste fino completo. | método modelo | PETL,Adaptador |
O objetivo da introdução do Adaptador: Para N tarefas, o ajuste fino completo do modelo requer N x o número de parâmetros do modelo pré-treinado. No entanto, o objetivo do Adapter é obter o mesmo desempenho do ajuste fino, mas o treinamento total dos parâmetros é menor, idealmente próximo a 1 ×.
3. Modelo (conteúdo principal)
A estrutura de combinação de adaptador e transformador.
Adicionado em dois locais no Transformer, um após a projeção e outro após as duas camadas avançadas;
Como um gargalo para cada camada do Adaptador. Seus parâmetros são muito menores do que o modelo original, e também inclui conexão de salto, apenas a parte verde é atualizada.
4. Experiência e Análise
Plataforma AutoML para experimentos.
4.1 Conjunto de dados
benchmark GLUE
17 dados públicos
SQUAD respondendo a perguntas
4.2 Resultados do benchmark GLUE
GLUE marcou 80,0 e ajustou totalmente 80,4.
O parâmetro de ajuste total do modelo BERT_LARGE é 9,0 x , o que significa que a soma dessas 9 tarefas deve ser ajustada;
O melhor efeito dos adaptadores é 80,0, e a quantidade total de parâmetros é apenas 1,3 vezes dos parâmetros do modelo original, e os parâmetros de treinamento são apenas 3,6%.
5. Resumo
Um modelo de adaptador combinado com um transformador é proposto, o qual pode atingir o efeito de ajuste completo com poucos parâmetros no treinamento. A ideia é muito boa e o efeito é relativamente bom.