[Notas de leitura do artigo 77] LoRA: adaptação de baixo escalão de grandes modelos de linguagem

1. Informações básicas

tema Autor do artigo e unidade fonte anos
LoRA: Adaptação de Baixo Nível de Grandes Modelos de Linguagem microsoft Conferência Internacional sobre Representações de Aprendizagem 2021

524 Citações

Link do artigo: https://arxiv.org/pdf/2106.09685.pdf

Código do papel: https://github.com/microsoft/LoRA

2. Pontos-chave

Tópicos de pesquisa fundo do problema Fluxo do método principal destaques conjunto de dados para concluir tipo de tese palavras-chave
ajustando modelos grandes Não é viável ajustar todos os parâmetros de um modelo maior, como GPT-3 175B, e cada tarefa implanta um GPT-3 separado, que é muito caro. Adaptação de baixo escalão proposta, LoRA. Congelar os pesos do modelo pré-treinado e injetar uma matriz de fatoração de classificação treinável em cada camada da arquitetura do Transformer reduz muito o número de parâmetros treináveis ​​para tarefas de downstream. O efeito é igual ou melhor do que o ajuste fino do parâmetro completo e não há atraso de inferência. LoRa

O objetivo principal não é ajustar todos os parâmetros do modelo para atender às tarefas a jusante, porque o custo é muito alto, especialmente para modelos grandes como o 175B GPT-3; ao mesmo tempo, algumas pessoas propuseram métodos relacionados para esse método, mas há problemas com esses métodos, estendendo a profundidade do modelo ou reduzindo o comprimento de sequência disponível do modelo na presença de latência de inferência. O mais importante é que a qualidade não é boa o suficiente.

Inspirado por: O modelo superparametrizado aprendido realmente existe em uma dimensão intrínseca inferior. Ou seja, o treinamento de tarefas a jusante não requer tantos parâmetros, e o método de redução de classificação é usado para reter os parâmetros mais intrínsecos.

Medindo a dimensão intrínseca de paisagens objetivas, a dimensionalidade intrínseca explica a eficácia do ajuste fino do modelo de linguagem. arXiv:2012.13255 [cs] , dezembro de 2020.

vantagem:

Apenas um modelo grande é compartilhado e, para diferentes tarefas, apenas diferentes A e B são treinados.

O treinamento é mais eficaz e os parâmetros de treinamento são menores;

Em termos de inferência, fusão linear, sem atraso de inferência;

O LoRA é ortogonal a muitas abordagens anteriores e pode ser combinado com muitas delas, como o ajuste de prefixo.

3. Modelo (conteúdo principal)

3.1 Expressão formal

pCmZfhQ.png

3.2 Estrutura do modelo

pCmASwF.png

W 0 + ∆W = W 0 + *BA, onde *B:d*r, A:r*k, r << min( d, k ).

W0 é congelado durante o treinamento.

pCmmbYF.png

No Transformer, existem 4 matrizes para autoatenção e 2 matrizes para o módulo MLP;

O experimento aqui se preocupa apenas com a matriz de peso relacionada à autoatenção.

4. Experiência e Análise

Experimento Comparativo

Ajuste Fino (FT) : Ajuste fino tradicional. variante FT, apenas treina as duas últimas camadas ( FT Top2 );

Bias-only ou BitFit : treina somente vetores de bias;

**Afinação de incorporação de prefixo (PreEmbed): **Inserir tags especiais em tags de entrada;

Ajuste de camada de prefixo (PreLayer) : É uma extensão do ajuste de incorporação de prefixo;

Ajuste do adaptador : Insira uma camada de adaptador entre o módulo de autoatendimento (e o módulo MLP) e as conexões restantes subsequentes;

Adaptador_H :Houlsby et al. (2019);

Adaptador_L : Lin et al. (2020)

Adapter_P : Pfeiffer et al. (2021),

**Adapter_*** D : *AdapterDrop (R¨uckl′e et al., 2020)

Para todos os modelos, limite a escala de tamanho do parâmetro relevante Θ :

pCmNA5d.png

resultado:
pCmUnY9.png

pCmUgYj.png

pCmByJe.png

Quantidade de parâmetros de treinamento e experimento de comparação de desempenho:

pCmanHS.png

Para o efeito do GPT-3 com o aumento das amostras:

pCma6u6.png

5. Código

https://github.com/microsoft/LoRA

6. Resumo

Do ponto de vista do efeito, independentemente do tamanho do modelo pré-treinamento, o LoRA usa menos parâmetros para obter um melhor efeito do modelo de parâmetros completos.

7. Coleta de conhecimento (pontos de conhecimento, literatura a ser lida, extração do texto original)

Adapte-se a tarefas downstream com menos parâmetros, principalmente em duas direções (adaptador, prompt de software):

adicionando camadas adaptadoras, otimizando algumas formas de ativação da camada de entrada

A principal desvantagem do ajuste fino é que o novo modelo contém tantos parâmetros quanto o modelo original.

A principal desvantagem do ajuste fino é que o novo modelo contém tantos parâmetros quanto o modelo original.

8. Referências

feito por happyprince

Acho que você gosta

Origin blog.csdn.net/ld326/article/details/131193936
Recomendado
Clasificación