1. Informações básicas
tema | Autor do artigo e unidade | fonte | anos |
---|---|---|---|
LoRA: Adaptação de Baixo Nível de Grandes Modelos de Linguagem | microsoft | Conferência Internacional sobre Representações de Aprendizagem | 2021 |
524 Citações
Link do artigo: https://arxiv.org/pdf/2106.09685.pdf
Código do papel: https://github.com/microsoft/LoRA
2. Pontos-chave
Tópicos de pesquisa | fundo do problema | Fluxo do método principal | destaques | conjunto de dados | para concluir | tipo de tese | palavras-chave |
---|---|---|---|---|---|---|---|
ajustando modelos grandes | Não é viável ajustar todos os parâmetros de um modelo maior, como GPT-3 175B, e cada tarefa implanta um GPT-3 separado, que é muito caro. | Adaptação de baixo escalão proposta, LoRA. | Congelar os pesos do modelo pré-treinado e injetar uma matriz de fatoração de classificação treinável em cada camada da arquitetura do Transformer reduz muito o número de parâmetros treináveis para tarefas de downstream. | O efeito é igual ou melhor do que o ajuste fino do parâmetro completo e não há atraso de inferência. | LoRa |
O objetivo principal não é ajustar todos os parâmetros do modelo para atender às tarefas a jusante, porque o custo é muito alto, especialmente para modelos grandes como o 175B GPT-3; ao mesmo tempo, algumas pessoas propuseram métodos relacionados para esse método, mas há problemas com esses métodos, estendendo a profundidade do modelo ou reduzindo o comprimento de sequência disponível do modelo na presença de latência de inferência. O mais importante é que a qualidade não é boa o suficiente.
Inspirado por: O modelo superparametrizado aprendido realmente existe em uma dimensão intrínseca inferior. Ou seja, o treinamento de tarefas a jusante não requer tantos parâmetros, e o método de redução de classificação é usado para reter os parâmetros mais intrínsecos.
Medindo a dimensão intrínseca de paisagens objetivas, a dimensionalidade intrínseca explica a eficácia do ajuste fino do modelo de linguagem. arXiv:2012.13255 [cs] , dezembro de 2020.
vantagem:
Apenas um modelo grande é compartilhado e, para diferentes tarefas, apenas diferentes A e B são treinados.
O treinamento é mais eficaz e os parâmetros de treinamento são menores;
Em termos de inferência, fusão linear, sem atraso de inferência;
O LoRA é ortogonal a muitas abordagens anteriores e pode ser combinado com muitas delas, como o ajuste de prefixo.
3. Modelo (conteúdo principal)
3.1 Expressão formal
3.2 Estrutura do modelo
W 0 + ∆W = W 0 + *BA, onde *B:d*r, A:r*k, r << min( d, k ).
W0 é congelado durante o treinamento.
No Transformer, existem 4 matrizes para autoatenção e 2 matrizes para o módulo MLP;
O experimento aqui se preocupa apenas com a matriz de peso relacionada à autoatenção.
4. Experiência e Análise
Experimento Comparativo
Ajuste Fino (FT) : Ajuste fino tradicional. variante FT, apenas treina as duas últimas camadas ( FT Top2 );
Bias-only ou BitFit : treina somente vetores de bias;
**Afinação de incorporação de prefixo (PreEmbed): **Inserir tags especiais em tags de entrada;
Ajuste de camada de prefixo (PreLayer) : É uma extensão do ajuste de incorporação de prefixo;
Ajuste do adaptador : Insira uma camada de adaptador entre o módulo de autoatendimento (e o módulo MLP) e as conexões restantes subsequentes;
Adaptador_H :Houlsby et al. (2019);
Adaptador_L : Lin et al. (2020)
Adapter_P : Pfeiffer et al. (2021),
**Adapter_*** D : *AdapterDrop (R¨uckl′e et al., 2020)
Para todos os modelos, limite a escala de tamanho do parâmetro relevante Θ :
Quantidade de parâmetros de treinamento e experimento de comparação de desempenho:
Para o efeito do GPT-3 com o aumento das amostras:
5. Código
https://github.com/microsoft/LoRA
6. Resumo
Do ponto de vista do efeito, independentemente do tamanho do modelo pré-treinamento, o LoRA usa menos parâmetros para obter um melhor efeito do modelo de parâmetros completos.
7. Coleta de conhecimento (pontos de conhecimento, literatura a ser lida, extração do texto original)
Adapte-se a tarefas downstream com menos parâmetros, principalmente em duas direções (adaptador, prompt de software):
adicionando camadas adaptadoras, otimizando algumas formas de ativação da camada de entrada
A principal desvantagem do ajuste fino é que o novo modelo contém tantos parâmetros quanto o modelo original.
A principal desvantagem do ajuste fino é que o novo modelo contém tantos parâmetros quanto o modelo original.
8. Referências
feito por happyprince