[Notas] papel ULMFiT - Linguagem Universal Modelo ajuste fino para Text Classification

Alguns termos 0

transferência tranductive direto transferência push aprender
transferência indutiva de transferência indutiva de aprendizagem
transferência das amostras de aprender a aprender transferência da amostra

1. Introdução

Para a aprendizagem indutiva transferência:
(2013) anos de embeddings palavra fine-tuning pré-treinados tecnologia de migração apenas para o modelo da primeira camada, mas têm um grande impacto, a maioria dos modelos avançados com ele.
(2017,2018) anos de tecnologia é embeddings e camada diferente de entrada para conectar diferentes tarefas que ainda precisam começar a treinar o modelo inteiro, e embeddings pré-formados são tratados como parâmetros fixos, limitando o uso.
(2015) O Fine-Tuning um modelo de linguagem (LM) , requer milhões de documentos em domínio, a fim de obter bons resultados, o que limita a utilidade.

Antes de aprender do problema da migração :
há falta de ideias LM ajuste fino, mas a falta de efetiva formação do seu conhecimento .
LM é fácil de over-fitting para pequenos conjuntos de dados, e quando a aperfeiçoá-lo cada vez classificador terá graves esquecido.

Surgiram:
proposta ULMFiT , semelhante ao IMAGEnet modelos de fine-tuning: LSTM tem uma estrutura de três camadas sobre os mesmos parâmetros, basta modificar o abandono.

Contribuição
1) propôs ULMFiT, estudo migração CV semelhante, o modelo é aplicável a todas as tarefas de PNL;
2) propõe uma distinção corte , taxa de aprendizagem triângulo oblíquo e o descongelamento gradual de novas tecnologias , a fim de reter o conhecimento anterior , para evitar o processo de ajuste fino catastrófica esquecido ;
3) em seis texto representativo conjunto de dados de classificação sota, erros no conjunto de dados sobre a% mais reduzido 18-24;
4.) Extremamente eficiente em termos de Transferência de Amostra de aprendizagem, e análise ablação extensa conduzida ;
5) pré-treinamento do modelo e código-fonte aberto, de modo a ser mais amplamente utilizado.

Trabalhos Relacionados

CV na aprendizagem Transferência : profundidade CV apresenta redes neurais têm relações com o número de camadas, a primeira camada é uma característica geral, com o aumento do número de camadas, caracterizado por cada vez mais associada a uma tarefa particular, até que o último (2015). (2014), caracterizada pelo uso de simples IMAGEnet como entrada para os classificadores atinge sota Recentemente, esta abordagem gradualmente. Ajustando alternativamente: pré-recorte a última camada do modelo comboio ou as camadas finais, outras camadas sobre congelada .

Hypercolumns : métodos PNL, a migração para além palavras embutidos (embeddings palavra traslación) gradualmente sido proposta. No CV, a coluna de super quase foi substituído por fim fine-tuning (Long et al., 2015a).
Aqui Insert Picture Descrição

Aprendizagem Tarefa Multi- : MTL (2017,2018), acrescentou um modelo da língua-alvo no modelo, e esses modelos para treinar com o modelo principal tarefa. Características: treinados a partir do zero, ineficientes, precisam ser cuidadosamente ponderados em relação as funções OBEJETIVO tarefa específica.

A afinação-Fine : Aplicação: QA, supervisão remota e análise de sentimentos, MT, mas: migração de tarefas não é relevante é um fracasso. Em contraste, ULMFiT usando pré-treinamento-domínio geral e novas técnicas de ajuste fino para evitar over-fitting, SOTA em um pequeno conjunto de dados.

3 Linguagem Universal Modelo ajuste fino

O modelo de linguagem pode ser visto como uma tarefa fonte ideal, que é capaz de capturar muitas partes de tarefas a jusante relacionados com a língua : Por exemplo: por exemplo, a dependência a longo prazo (2016), a hierarquia (2018), emocional (2017), que fornece para a maioria das áreas e idiomas uma quantidade quase ilimitada de dados, pré-treinados características modelo de linguagem do alvo pode ser facilmente adaptado para a tarefa.

Aqui Insert Picture Descrição
ULMFiT significado prático:

  1. Ele funciona em um tamanho diferente do documento, número e tipo de marcação tarefas;
  2. Ele usa uma única infra-estrutura e processos de formação;
  3. Ele não requer recursos de engenharia personalizados ou pré-tratadas;
  4. documentos adicionais ou marca de campo.

Use: AWD-LSTM + vários sintonizado hiperparâmetro abandono.
A seção seguinte é constituída por ULMFiT:

  1. áreas gerais de pré-formação LM ;
  2. afinar LM os objectivos e tarefas : discriminativo fine-tuning, aprendizagem triangulares taxas
  3. Objectivos e funções para afinar o classificador : pooling concat, descongelamento gradual

Ao combinar os métodos acima, o conjunto de dados para ter um bom desempenho.

LM formação 3.1 Geral pré-campo

Corpus utilizado foi: Wikitext-103 (Merity et ai, 2017b).

3.2 Alvo tarefa LM ajuste fino

tarefa alvo de dados é susceptível de ter diferentes distribuições, propomos um Fine-o discriminativo Sintonia (distinguir fine-tuning) e Slanted Triangular Aprendizagem Preços (taxa de aprendizagem triângulo oblíquo).

Discriminativo ajuste fino

Diferentes camadas de diferentes informações de captura, por isso eles devem ser em diferente medida afinado.
df
Em primeiro lugar, apenas a última camada da taxa de aprendizagem [eta] G ajuste fino, seguindo-se a taxa de aprendizagem [eta] L-. 1 = [eta] G ajuste /2.6 fina da camada inferior, o desempenho bom.

taxas de aprendizagem triangulares inclinadas

Queremos modelo de convergência rápida no início da formação para a área apropriada do espaço de parâmetros, e em seguida, otimizar seus parâmetros.
Durante a mesma tarefa utilizando aprendizagem taxas ou taxa de aprendizagem (recozido taxa de aprendizagem) não é o melhor método de atenuação, onde o triângulo oblíquo com taxa de aprendizagem, que primeiro aumento linear aprendizagem taxa, e, em seguida, deterioração de acordo com as seguintes alterações programa linear , como mostrado:
Aqui Insert Picture Descrição
detalhes : T é as iterações, cut_frac nós iterações aumenta a proporção de LR, nós corte do aumento da LR para reduzir a iteração interruptor LR, p é nós aumentamos LR ou será menos iterações proporção de LR, relação observou baseado no η máxima LR max quão pequeno o menor LR, [eta] t é o t-th LR iteração. Nós normalmente disposta = 0,1 cut_frac, proporção = 32, [eta] max = 0,01.
Aqui Insert Picture Descrição
Em suma, STLR modificado taxa de aprendizagem triângulo, que é a chave para melhorar o desempenho - que aumenta o uso de um curta e um período de decadência longa .

3.3 Alvo classificador tarefa de ajuste fino

Finalmente, a fim de afinar o classificador, com dois blocos lineares adicionais para a expansão da LM pré-treinamento. classificador de acordo com a prática padrão CV, o lote por método de normalização de blocos (normalização em lotes) e (dropout), função de activação Relu camada intermédia, a última camada com a função de activação softmax, a distribuição de probabilidade de saída através da classe alvo. Estes parâmetros só são obrigados parâmetro de 0 a começar a aprender, uma primeira camada da camada última linear escondida como o estado da célula de entrada
Aqui Insert Picture Descrição
(FIG direito incerto acima)

Pooling concat :
Aqui Insert Picture Descrição
classificador alvo é fine-tuning o estudo da migração a parte mais crítica. Excessivamente ajuste agressivo pode resultar em catastrófica esquecido, eliminando assim os benefícios de informações obtidas através de linguagem de modelagem, e fine-tuning levará a uma convergência lenta excessivamente conservadora, e levar a um excesso de ajuste. Além de afinar a distinção entre a taxa de aprendizagem e triângulo oblíquo, que ainda afinar o método de classificação proposto (gradualmente descongeladas descongelamento gradual ).

Descongelamento gradual : Faça um tempo de ajuste fino para todas as camadas, pois isso irá causar catastrófica esquecido. Recomendar aos poucos começou a descongelar a partir do último modelo de camadas, porque (2014) contém pelo menos a última camada de conhecimento comum: Primeiro degelo e, em seguida, a última camada de cada afinar toda a camada descongelado na época; em seguida, descongeladas a um nível inferior, em seguida, aparar; repita acima; aparando até que todas as camadas, até os últimos converge iteração.
Mais como uma "cadeia-degelo" (2017) , mas no conjunto de "degelo" de camadas de adicionar uma camada, em vez de apenas uma vez por nível de formação.
Aqui Insert Picture Descrição

Texto de classificação para BPTT (BPT3C) : Para conseguir afinar documento classificador em larga escala a classificação texto proposto BPTT (BPT3C).

Idioma Modelo Bidirecional : Em todos os testes, os autores são predefinidos para a frente e para trás de um LM. Use BPT3C independentemente afinar o classificador para cada LM e médio previsão classificador.

4 Experiment

configuração 4.1 experimento

conjuntos de dados e tarefas : seis conjuntos de dados têm número diferente e comprimento do texto. Estes conjuntos de dados são os mais tarefas de classificação de texto de classificação de texto e de aprendizagem migração avançados como três exemplos comuns: problemas de análise de sentimento, de classificação e de classificação assunto.

Pré-tratamento : e (Johnson e Zhang, 2017; McCann et ai, 2017) Como um pré-tratamento, e adicionar fichas especiais para palavras maiúsculas , alongamento, e repetição.

Super parâmetros :
Aqui Insert Picture Descrição

4.2 Os resultados do teste

Aqui Insert Picture Descrição

5 análise

De pré-treinamento Impacto : Pré-formação é mais útil para conjuntos de dados pequenas e médias e pequenas e médias conjuntos de dados comum na maioria das aplicações comerciais, mesmo para grandes conjuntos de dados, pré-treino irá melhorar o desempenho.

De LM no Quality Impacto : Selecione uma medida adequada da importância da LM. Uso de tecnologia de ajuste fino, mesmo LM convencional, em um conjunto de dados maior pode alcançar desempenho surpreendentemente bom.
Aqui Insert Picture Descrição

Fine-LM da Sintonia Impacto : Nenhum comparação método de limpeza, todo o modelo aparar método, toda distinção entre o método de ajuste fino ajuste fino (DISCR) modelo e, toda distinção entre o método da taxa de triângulo aprender oblíqua (Stlr) modelo e afinar o ajuste fino e.

Fine-classificador do ajuste Impacto : métodos de treinamento comparar a partir do zero, o método modelo completo ajuste fino (Full), apenas ajuste fino a última camada (Last), "degelo cadeia", e o método de descongelamento gradual. Além disso, avaliou-se ainda a importância da distinção entre fine-tuning (DISCR) e taxa de aprendizagem triângulo oblíquo (Stlr) de.
AG é grandes conjuntos de dados. CADEM-6 conjuntos de dados pequenosAqui Insert Picture Descrição

Duas vias impacto no desempenho : a combinação de frente e para trás classificador predição LM, pode melhorar o desempenho de cerca de 0,5-0,7.

direcção 6 Futuro

O modelo de linguagem é especialmente útil em fine-tuning as seguintes definições:

  1. linguagem PNL diferente do Inglês, a missão pré-treinamento dados de treinamento supervisionado inadequada;
  2. A ausência da arquitetura mais avançada das novas tarefas de PNL;
  3. Tarefa quantidade de marcador de dados (bem como uma certa quantidade de dados não marcado) limitado.

Uma possível orientação é para melhorar a pré-formação e aperfeiçoamento do modelo de linguagem para torná-lo mais escalável; Modeling Language também pode encomendar tarefas adicionais multitarefa de aprendizagem , ou supervisão adicional, como a dependência sensível gramática, a criando um modelo mais geral ou mais adequado para algumas das tarefas do downstream maneira supervisão, fraco para manter sua propriedade comum idealmente.

Uma outra direcção é o método aplicado a novas tarefas e modelos : uma interacção mais complexo com outras tarefas, tais como Q ou contém, um novo método de pré-processamento e pode precisar de ser ajuste fino .

7 resumo

Propomos um método de aprendizagem de transferência de amostra eficiente e eficaz ULMFiT, PNL pode ser aplicado a qualquer tarefa. Também propusemos várias nova tecnologia de corte, combinado com essas tecnologias em conjunto para prevenir catastrófica esquecido, robusto e capaz de aprender em diferentes mandatos.

Publicado 63 artigos originais · ganhou elogios 13 · vê 40000 +

Acho que você gosta

Origin blog.csdn.net/changreal/article/details/103178386
Recomendado
Clasificación