Da compreensão à melhoria: seleção de vocabulário em tradução não autoregressiva | Tencent AI Paper Interpretation

imagem

Autor | Editor do Tencent AI Lab | Yu Ying 1. Visão geral

A tradução automática visa usar computadores para realizar a tradução automática entre línguas naturais e sempre foi uma importante direção de pesquisa no campo do processamento de linguagem natural e inteligência artificial. Com o advento do aprendizado profundo, as máquinas fizeram avanços e se tornaram uma tecnologia mais conhecida e comumente usada pelo público. Nos últimos anos, a evolução de RNN para Transformer não só melhorou o desempenho da tradução de uma maneira geral, mas também proporcionou a possibilidade de aceleração paralela do treinamento. Porém, a arquitetura tradicional do Transformer ainda gera traduções palavra por palavra durante a decodificação, ou seja, a geração de palavras traduzidas em cada etapa depende dos resultados da tradução anterior (conforme mostrado à esquerda da Figura 1). Conforme o tamanho do modelo do Transformer aumenta, o tempo de decodificação é caro. A fim de quebrar o gargalo da velocidade de decodificação, um sistema de tradução automática neural não autoregressivo (NAT) foi proposto em 2018 [1]. Ele se livra das restrições da decomposição autorregressiva e gera todas as palavras-alvo em paralelo (conforme mostrado à direita na Figura 1). Isso permite que a velocidade de decodificação seja muito melhorada e os benefícios da decodificação rápida de NAT podem permitir a implantação de modelos de Transformer maiores e mais profundos com atrasos e orçamentos específicos do setor.

imagemFigura 1. Comparação de tradução autorregressiva (AT) e tradução não autorregressiva (NAT)

No entanto, a multimodalidade na geração representa um desafio fundamental para o NAT. Todos nós sabemos que as línguas são altamente multimodais. Por exemplo, a frase em japonês 彼 は 日本语 が 上手 で す pode ser traduzida em duas frases equivalentes em inglês. Ele é muito bom em japonês e fala japonês muito bem. No entanto, duas frases que parecem muito semelhantes: ele fala muito bem em japonês ou ele é muito bom em muito bem não têm significado. No entanto, é difícil evitar o último na decodificação independente da condição, o que resulta no desempenho do NAT sendo significativamente mais fraco do que o modelo AT. Portanto, geralmente introduzimos um modelo autoregressivo (AT) como professor e usamos a destilação de conhecimento em nível de sequência (KD) [2] para reduzir a complexidade dos dados originais, tornando mais fácil para o NAT aprender o conhecimento de tradução determinística e, finalmente, Obtenha uma qualidade de tradução comparável à da AT. Portanto, o KD também se tornou uma técnica comum para o treinamento NAT.

Com o foco na melhoria da qualidade da tradução do NAT, os predecessores realizaram extensas explorações em termos de estrutura de modelo e objetivos de treinamento. No entanto, um trabalho recente publicado pelo Tencent AI Lab abriu um novo caminho: do ponto de vista dos dados, descobriu o efeito colateral da destilação do conhecimento no treinamento NAT: o problema da seleção de vocabulário. Para amenizar esse problema, propôs expor os dados originais ao modelo NAT para recuperar as informações de baixa frequência que faltavam nos dados de destilação. Os resultados experimentais mostram que este método pode melhorar de forma eficaz e universal a qualidade da tradução em vários pares de idiomas e estruturas modelo. Muitas análises confirmaram que este método melhora o desempenho geral, reduzindo os erros de seleção de vocabulário de palavras de baixa frequência. De forma encorajadora, este método aumenta o efeito SOTA NAT para 27,8 e 33,8 valores BLEU nos conjuntos de dados WMT14 Yingde e WMT16 Luoying, respectivamente. Este artigo foi aceito pelo ICLR 2021 [3]. A seguir está uma interpretação detalhada dos métodos e soluções de análise.

2. Plano detalhado

Em primeiro lugar, por meio de análises qualitativas e quantitativas, este artigo descobriu o efeito colateral do KD: torna a distribuição dos dados originais mais desequilibrada, o que leva a graves erros de seleção de vocabulário (especialmente em vocabulário de baixa frequência). Os erros dessas palavras de baixa frequência serão transferidos para o modelo NAT por meio da destilação do conhecimento. Conforme mostrado na Tabela 1, "Newmarket" que aparece apenas 3 vezes nos dados de treinamento é traduzido como "Newmarket" no corpus original. No entanto, após a destilação, eles foram mal traduzidos para o nome pessoal "Newmargot" (Margot Robbie é uma atriz australiana), o nome da instituição "Newmarquette" (Marquette é uma universidade em Wisconsin) e até mesmo o sem sentido "Newmarquite".

imagemTabela 1. Todas as amostras contendo "Newmarket" nas amostras de treinamento, "SRC" representa a frase chinesa de origem, "RAW-TGT" e "KD-TGT", respectivamente, representam a extremidade-alvo original e a extremidade-alvo destilada

Para melhor compreender as mudanças ocasionadas pelo KD, este artigo também considera dois modelos de professores com efeitos distintos, KD (Base) e KD (Grande), e decompõe o corpus em três frequências de palavras: alta, média e baixa, e de duas perspectivas Os reexaminaram: os dados de treinamento (Figura 2) e a tradução decodificada (Figura 3). Este artigo primeiramente visualiza a densidade de frequência de palavras nos dados de treinamento. Conforme mostrado na Figura 2, ele descobre que a curtose da distribuição de densidade de frequência de palavras dos dados KD é significativamente maior do que a dos dados originais, e esse fenômeno aumenta com o uso de professor mais forte KD (Grande) Mais significativo. O efeito colateral do KD também é óbvio, ou seja, as palavras de alta / baixa frequência nos dados originais se tornarão mais alta / baixa frequência. A fim de compreender melhor o impacto do KD em diferentes frequências de palavras, a precisão da tradução de diferentes frequências de palavras (Accuracy of Lexical Choice, AoLC) está listada na Figura 3. Verificou-se que usar um modelo de professor melhor irá melhorar significativamente a precisão da tradução de palavras de frequências médias e altas, melhorando assim o desempenho geral da tradução, mas isso prejudica seriamente a precisão da tradução de palavras de baixa frequência.

imagemFigura 2. Comparação da densidade de frequência de palavras dos dados originais e os dados destilados dos dois modelos de professores

imagemFigura 3. Comparação da precisão da tradução de diferentes frequências de palavras usando diferentes modelos de professores em diferentes conjuntos de dados

Com base nas interessantes descobertas acima, este trabalho propõe expor os dados originais ao modelo NAT para recuperar as informações de baixa frequência que foram perdidas nos dados de destilação. Para este fim, o autor introduz um termo de divergência KL adicional para restringir a escolha de palavras no modelo NAT e nos dados originais. Os resultados experimentais mostram que este método pode melhorar de forma eficaz e universal a qualidade da tradução em vários pares de idiomas e estruturas modelo. Muitas análises confirmaram que este método melhora o desempenho geral, reduzindo os erros de seleção de vocabulário de palavras de baixa frequência.

O objetivo deste artigo é aprimorar o modelo NAT para que ele possa aprender as escolhas de vocabulário necessárias (especialmente palavras de baixa frequência) a partir dos dados originais, de modo a obter um melhor desempenho. Conforme mostrado à esquerda da Figura 4, o pipeline de treinamento NAT atual primeiro usa o modelo AT para destilar os dados originais e, em seguida, o NAT aprende apenas os dados destilados. Nosso esquema (Figura 4, à direita) não apenas usa os dados destilados, mas também considera o aprendizado do conhecimento necessário (como palavras de baixa frequência) dos dados originais.

imagemFigura 4. À esquerda está o esquema de treinamento NAT atual: os dados são destilados por meio do modelo AT; à direita é a estratégia de expor os dados originais ao NAT

Por esse motivo, o autor introduz uma restrição prévia adicional relacionada aos dados bilíngues ao objetivo de treinamento atual do NAT. Esta restrição anterior usa divergência KL para guiar a previsão do modelo NAT para coincidir com a distribuição anterior bilíngue extraída dos dados originais. Conforme o treinamento avança, a influência desta restrição anterior será atenuada por vários estágios, e o modelo somente aprende os dados destilados na última metade do treinamento. Especificamente, extraímos duas distribuições anteriores bilíngues dos dados originais, uma é baseada no modelo estatístico de alinhamento de palavras e a outra é baseada na autodestilação do modelo NAT. Os principais resultados do experimento são mostrados na Tabela 2. Este artigo seleciona vários modelos NAT para verificar o efeito de nosso método. Experimentos em vários conjuntos de dados mostram que nosso método pode efetivamente melhorar a precisão da tradução de palavras de baixa frequência, trazendo assim o melhoria do BLEU.

imagemTabela 2. Nosso método pode efetivamente melhorar a qualidade das traduções e superar os métodos anteriores em dois conjuntos de dados gerais

Além disso, este artigo também conduziu muitos experimentos de análise e descobriu que esse método pode, de fato, reduzir erros de tradução na tradução, melhorar significativamente o efeito da tradução de palavras de baixa frequência e produzir mais palavras de baixa frequência (mostrado na Tabela 3). Ao mesmo tempo, verifica-se que com o aprimoramento do modelo de TA do professor, o método proposto pode alcançar uma melhoria estável (mostrado na Tabela 4).

imagemTabela 3. Avaliação subjetiva de erros de tradução no conjunto de dados Zh-En

imagemTabela 4. O efeito de diferentes modelos de professor de AT no conjunto de dados En-De

3. Resumo e perspectiva

A tradução não autoregressiva (NAT) é atualmente um dos subcampos da tradução automática mais preocupados. O modelo NAT tem a vantagem de decodificar rapidamente, mas seu desempenho é mais fraco do que o método tradicional de tradução autorregressiva. Com o foco na melhoria da qualidade da tradução do NAT, os predecessores exploraram principalmente a estrutura do modelo e os objetivos de treinamento. No entanto, este trabalho abriu um novo caminho, descobriu os efeitos colaterais da destilação do conhecimento do ponto de vista dos dados e definiu o problema da seleção de vocabulário. Isso mudará o treinamento tradicional de KD e orientará o trabalho de acompanhamento para propor estratégias de treinamento mais razoáveis.


Acho que você gosta

Origin blog.51cto.com/15060462/2674382
Recomendado
Clasificación