Essas coisas sobre Mask no Transformer

A máscara é inspirada em cloze. A estrutura do Transformer inclui um codificador e um decodificador.Durante o processo de codificação, o objetivo é permitir que o modelo veja as informações antes e depois da posição atual, portanto, nenhuma máscara de atenção é necessária. No entanto, no processo de decodificação, para simular a cena de inferência real, a posição atual não pode ver a próxima posição, e as informações da posição anterior são necessárias ao mesmo tempo, então uma máscara de atenção é adicionada durante o treinamento. Ele pode efetivamente melhorar a generalização.

Para o BERT original, durante o treinamento, o menor token de unidade de entrada em toda a sentença é selecionado aleatoriamente para mascaramento. Como a tecnologia Byte Pair Encoding (BPE) é usada, essas unidades menores também podem ser consideradas como subpalavras (subpalavras), por exemplo, superman é dividido em duas subpalavras, super+man.

O modelo BERT usa duas tarefas de pré-treinamento durante o treinamento: Masked LM e Next Sentence Prediction. Durante o processo BERT Mask, 15% das palavras serão bloqueadas, e então o modelo será usado para prever as palavras bloqueadas. O BERT processará cada palavra separadamente, ou seja, a informação da frase não é considerada quando a Máscara é usada. Por exemplo, na frase "O autor de Jingyesi é Li Bai", o BERT pode obter Máscara "O autor de Jingyesi é [Máscara] Bai".

Este método pode ser um pouco problemático, o token [MASK] nunca aparece no estágio de ajuste fino, o que causará inconsistência entre a tarefa de pré-treinamento e a tarefa de ajuste fino downstream.

Mais tarde, Bert propôs ainda uma técnica chamada máscara de palavra inteira (wwm) para otimizar a máscara original na tarefa MLM. Nesta configuração, os tokens do WordPiece a serem mascarados não são selecionados aleatoriamente (Wu et al., 2016), mas todos os tokens correspondentes às palavras completas são sempre mascarados ao mesmo tempo. Isso forçaria explicitamente o modelo a recuperar palavras completas na tarefa de pré-treinamento MLM, em vez de apenas recuperar tokens WordPiece (Cui et al., 2019a).

O artigo "ERNIE: representação aprimorada por meio da integração do conhecimento". O autor de ERINE acredita que a maneira como o BERT oclui palavras individuais geralmente ignora o conhecimento prévio em frases, por exemplo, para a frase "A autora de Harry Potter é JK Rowling", se o modelo ocluir uma palavra aleatória de "Harry Potter", o modelo pode facilmente prever "Harry Potter" sem usar o conhecimento da frase. No entanto, se toda a entidade de "Harry Potter" estiver bloqueada, o BERT não pode prever corretamente, indicando que o BERT não pode fazer bom uso do conhecimento da frase inteira.

A ERINE propôs uma nova estratégia chamada Knowledge Mask. Inclui principalmente Phrase Mask (frase) e Entity Mask (entidade), que podem ser compostas por várias palavras. Ao ocluir algumas frases na frase e prever a frase inteira, o ERNIE pode capturar melhor a relação entre frases e entidades. A figura abaixo mostra a diferença entre as estratégias BERT e ERNIE Mask.

RoBERTa pega a arquitetura original do BERT, mas faz modificações mais precisas para mostrar as características do BERT, que é subestimado. Eles compararam cuidadosamente os vários componentes do BERT, incluindo estratégia de máscara, etapas de treinamento etc. Após uma avaliação minuciosa, eles tiram várias conclusões úteis que tornam o BERT mais poderoso, incluindo máscaras dinâmicas.

No RoBERTa, n cópias dos dados originais são copiadas, e uma máscara estática aleatória é realizada em cada cópia, de modo que os resultados da máscara de cada cópia dos dados sejam diferentes. O allcator de dados em huggingface usa uma máscara dinâmica, mas em vez de copiar dados, a estratégia de máscara de cada época é diferente, para que o efeito de uma máscara dinâmica possa ser alcançado, de modo que a máscara de cada época seja diferente.

MacBert propôs uma máscara interessante:

Usamos estratégias mascaradas de palavras inteiras e mascaradas de Ngram para selecionar tokens candidatos a mascarar, e a proporção de unigrama em nível de palavra para 4 gramas é de 40%, 30%, 20%, 10%.
Propõe-se não usar o token [MASK] para mascarar, porque [MASK] nunca apareceu no estágio de ajuste fino do token, propomos usar palavras semelhantes para mascarar. Palavras semelhantes são obtidas usando o Synonym Toolkit (Wang e Hu, 2017) com base no cálculo de similaridade word2vec (Mikolov et al., 2013). Se um N-gram for selecionado para mascaramento, encontraremos palavras semelhantes, respectivamente. Em casos raros, quando não há palavras semelhantes, voltamos a usar a substituição aleatória de palavras.
Nós mascaramos 15% das palavras de entrada, 80% das quais serão substituídas por palavras semelhantes, 10% serão substituídas por palavras aleatórias e os 10% restantes manterão as palavras originais.

No experimento de ablação, isso realmente provou a eficácia. A pontuação média geral é obtida pela média das pontuações do teste para cada tarefa (as métricas EM e F1 são calculadas antes da média geral). No geral, a remoção de qualquer componente no MacBERT resulta em uma diminuição no desempenho médio, sugerindo que todas as modificações contribuem para a melhoria geral. Especificamente, a modificação mais eficaz é a máscara N-gram e a substituição de palavras semelhantes, que é uma modificação da tarefa do modelo de linguagem da máscara. Podemos ver prós e contras claros quando comparamos as máscaras N-gram com substituições de palavras semelhantes, onde as máscaras N-gram parecem ser mais eficazes em tarefas de classificação de texto, enquanto o desempenho em tarefas de compreensão de leitura parece se beneficiar de palavras semelhantes Mais. Ao combinar essas duas tarefas, é possível compensar uma à outra e obter melhor desempenho em ambos os tipos.

Um novo ponto de vista foi apresentado em "Você deve mascarar 15% na modelagem de linguagem mascarada?". No modelo de pré-treinamento mascarado anterior, o modelo de linguagem mascarada geralmente usa uma taxa de mascaramento de 15%. A equipe do autor acredita que mais mascaramento fornecerá contexto suficiente para aprender boas representações, enquanto menos mascaramento tornará o treinamento muito caro. Surpreendentemente, descobrimos que uma sequência de entrada com 40% de probabilidade de oclusão pode superar uma linha de base de 15%, medida pelo ajuste fino em tarefas posteriores, e mesmo a oclusão de 80% dos caracteres retém a maior parte do desempenho.

Podemos descobrir que até 50% de oclusão atinge resultados comparáveis ou até melhores do que o modelo padrão de 15% de oclusão. O obscurecimento de 40% atinge o melhor desempenho geral da tarefa downstream (embora a proporção ideal de obscurecimento varie para diferentes tarefas downstream). Os resultados mostram que o pré-treinamento do modelo de linguagem não precisa usar menos de 15% de taxa de mascaramento, enquanto a taxa de mascaramento ideal para modelos grandes usando taxa lateral de pré-treinamento eficiente é de até 40%.

Neste artigo, há realmente uma refutação do método 80-10-10 usado por MacBert.

Desde 2019, a maioria das pessoas pensa que é benéfico substituir 10% do token original (manter a palavra inalterada) e substituir 10% por um token aleatório. Desde então, a regra 80-10-10 foi amplamente adotada em quase todos os trabalhos de pré-treinamento de MLM em pesquisas anteriores de modelos de pré-treinamento. A motivação é que os rótulos mascarados criam uma incompatibilidade entre o pré-treinamento e o ajuste fino posterior, e o uso de rótulos brutos ou aleatórios como alternativa a [MASK] pode aliviar essa lacuna. Com base nesse raciocínio, seria razoável supor que mascarar mais contexto deveria aumentar ainda mais a variação, mas os autores observaram um desempenho mais forte em tarefas posteriores. Isso levanta a questão de saber se a regra 80-10-10 é necessária.

Com base nos resultados experimentais, observamos que a mesma predição de caracteres e corrupção aleatória de caracteres degrada o desempenho da maioria das tarefas downstream. A regra "80-10-10" é menos eficaz do que simplesmente usar [MASK] para todas as tarefas. Isso mostra que, no paradigma de ajuste fino, o modelo [MASK] pode se adaptar rapidamente a sentenças completas e sem danos, sem substituição aleatória. Tendo em vista os resultados experimentais, o autor recomenda apenas o uso de [MASK] para o pré-treinamento.

Essas coisas sobre Mask no Transformer

Acho que você gosta