LaBSE: modelo de vetor de incorporação de BERT multilíngue com suporte a 109 idiomas

Texto / Engenheiro de software Yinfei Yang e Fangxiaoyu Feng, Google Research

O modelo vetorial de incorporação multilíngue é uma ferramenta poderosa que pode codificar textos em diferentes idiomas em um espaço vetorial de incorporação compartilhada. Pode ser aplicado a uma série de tarefas posteriores, como classificação de texto, agrupamento etc., e também pode usar informações semânticas para entender Língua. Os métodos existentes para gerar esses vetores de incorporação (como LASER ou m ~ USE ) dependem de dados paralelos para mapear frases diretamente de um idioma para outro e promover a consistência entre os vetores de incorporação de frases .

Os métodos multilíngues existentes podem atingir um bom desempenho geral em vários idiomas, mas em comparação com o modelo bilíngue dedicado, os métodos existentes geralmente têm um desempenho ruim em idiomas com muitos recursos. O modelo bilíngue dedicado pode usar métodos como tarefas de classificação de tradução de pares de tradução como dados de treinamento para obter representações de alinhamento mais próximas. Além disso, como a capacidade do modelo é limitada e a qualidade dos dados de treinamento para idiomas de poucos recursos geralmente é ruim, o modelo multilíngue pode ser difícil de expandir e não pode suportar mais idiomas, mantendo um bom desempenho.

  • Tarefa de classificação de tradução
    https://www.aclweb.org/anthology/W18-6317.pdf

Ilustração de espaço vetorial de incorporação multilíngue

As últimas conquistas no aprimoramento dos modelos de linguagem incluem o desenvolvimento do pré-treinamento do Masked Language Model (MLM), como  os usados ​​por BERT , ALBERT e RoBERTa. Este método requer apenas texto monolíngue, portanto, funciona bem em uma variedade de tarefas de processamento de linguagem natural.

  • Modelo de linguagem de mascaramento
    https://www.aclweb.org/anthology/N19-1423/

  • RoBERTa
    https://arxiv.org/abs/1907.11692

Além disso, ao modificar o treinamento de MLM para incluir pares de tradução em cascata (Translation Language Modeling (TLM)), ou simplesmente introduzir dados de pré-treinamento de vários idiomas, o pré-treinamento de MLM pode ser estendido para vários idiomas arredores. Embora as representações do modelo interno aprendidas durante o treinamento de MLM e TLM sejam muito úteis para o ajuste fino de tarefas posteriores, elas não podem gerar diretamente os vetores de incorporação de frases necessários para a tarefa de tradução sem objetivos no nível da frase.

  • Modelagem de linguagem de tradução
    https://arxiv.org/abs/1901.07291

Em linguagem agnóstica de BERT Sentença Embedding , propomos um  modelo de vetor de embedding BERT multilíngue denominado LaBSE , que pode gerar vetores de embedding de sentenças entre línguas agnósticas de linguagem para 109 idiomas. LaBSE pré-treinado usando MLM e TLM em 17 bilhões de frases simples e 6 bilhões de pares de frases bilíngues. O modelo treinado também é eficaz para idiomas de poucos recursos que não têm dados disponíveis durante o treinamento. Além disso, o modelo estabeleceu o nível de ponta (SOTA) em tarefas de recuperação de texto paralelo múltiplo (também conhecido como bitext). O modelo pré-treinado foi lançado para a comunidade por meio do tfhub, incluindo módulos que podem ser usados ​​diretamente ou ajustados usando dados específicos do domínio.

  • Incorporação de frase de BERT independente de linguagem em
    https://arxiv.org/abs/2007.01852

  • BERT
    https://www.aclweb.org/anthology/N19-1423/

  • Tfhub
    https://tfhub.dev/google/LaBSE/1

Apoie a coleta de dados de treinamento em 109 idiomas

modelo

Em pesquisas anteriores, propusemos usar a tarefa de classificação de tradução para aprender o espaço vetorial de incorporação de frases multilíngues. Este método recebe uma frase no idioma de origem, deixe o modelo classificar a tradução real no conjunto de frases do idioma de destino. A tarefa de classificação de tradução é treinada usando uma arquitetura de codificador duplo com um codificador de conversor compartilhado. O modelo bilíngue gerado alcançou desempenho de ponta (SOTA) em várias tarefas de recuperação de texto paralelas (incluindo Nações Unidas e BUCC). No entanto, devido às limitações de capacidade do modelo, cobertura de vocabulário, qualidade de dados de treinamento, etc., quando o modelo de idioma dual é estendido para oferecer suporte a vários idiomas (16 idiomas no caso de teste), o desempenho do modelo é reduzido.

  • Pesquisa anterior
    https://www.ijcai.org/Proceedings/2019/0746.pdf

Tarefa de classificação de tradução: dada uma frase no idioma de origem, a tarefa é encontrar a tradução verdadeira no conjunto de frases no idioma de destino

Para o LaBSE, aproveitamos os avanços recentes no pré-treinamento do modelo de linguagem, incluindo MLM e TLM, em uma arquitetura do tipo BERT, e ajustamos a classificação das tarefas de tradução. Use MLM e TLM para pré-treinar um Transformer de 12 camadas com 500.000 palavras simbólicas em 109 idiomas para aumentar a cobertura de modelos e palavras. O modelo LaBSE resultante fornece suporte estendido para 109 idiomas em um único modelo .

  • BERT
    https://arxiv.org/pdf/1810.04805.pdf

  • Transformer
    https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

Com a arquitetura de codificador duplo, o texto de origem e o texto de destino são respectivamente codificados usando uma rede vetorial integrada de conversor de parâmetro compartilhado. Aplicar tarefas de classificação de tradução para forçar textos interpretados mutuamente a terem expressões semelhantes. A rede vetorial de incorporação do conversor é inicializada a partir de pontos de verificação de BERT treinados em tarefas MLM e TLM

Desempenho na recuperação de texto em vários idiomas

Usamos o modelo de avaliação de corpus Tatoeba, que contém 1000 pares de frases alinhadas em inglês em 112 idiomas. Para mais de 30 idiomas no conjunto de dados, o modelo não tem dados de treinamento. A tarefa do modelo é calcular a distância do cosseno para encontrar a tradução do vizinho mais próximo de uma determinada frase.

  • Coleção de números da Tatoeba
    https://github.com/facebookresearch/LASER/tree/master/data/tatoeba/v1

Para entender o desempenho do modelo de linguagem na linguagem inicial ou final da distribuição dos dados de treinamento, dividimos o conjunto de linguagens em vários grupos e calculamos a precisão média de cada grupo. Selecione os primeiros 14 grupos de idiomas entre os idiomas suportados por m ~ USE. Esses idiomas abrangem o idioma do cabeçalho de distribuição ( idioma principal ). Também avaliamos um segundo grupo de idiomas que consiste em 36 idiomas do benchmark XTREME . O terceiro grupo de 82 idiomas selecionado entre os idiomas cobertos pelos dados de treinamento do LASER inclui muitos idiomas no final da distribuição ( idiomas finais ). Finalmente, calcule a precisão média de todos os idiomas.

A tabela a seguir lista a precisão média alcançada pelo LaBSE para cada grupo de idiomas em comparação com os modelos m ~ USE e LASER. Como esperado, todos os modelos tiveram bom desempenho em 14 grupos de idiomas, abrangendo a maioria dos idiomas principais. Com o aumento dos idiomas, a precisão média do LASER e do LaBSE diminuiu. No entanto, a precisão do modelo LaBSE tem uma queda muito menor, que é significativamente melhor do que o LASER, especialmente quando 112 idiomas estão completamente distribuídos (taxas de precisão de 83,7% e 65,5%, respectivamente).

modelo 14 idiomas 36 idiomas 82 idiomas Todas as línguas
m ~ USE * 93,9 - - -
LASER 95,3 84,4 75,9 65,5
LaBSE 95,3 95,0 87,3 83,7

A precisão média (%) do conjunto de dados Tatoeba. O grupo "14 idiomas" é composto por idiomas suportados por m ~ USE; o grupo "36 idiomas" inclui os idiomas selecionados pelo XTREME; o grupo "82 idiomas" representa os idiomas abrangidos pelo modelo LASER. O grupo "Todos os idiomas" inclui todos os idiomas suportados pelo Taoteba

* Existem dois modelos m ~ USE, um baseado na arquitetura de rede neural convolucional e o outro baseado na arquitetura do tipo Transformer. Aqui apenas compare com a versão do Transformer

Suporte para idiomas não treinados

O desempenho médio de todas as línguas em Tatoeba é promissor. É importante notar que o LaBSE alcançou até um desempenho relativamente bom em mais de 30 idiomas Tatoeba sem dados de treinamento (veja abaixo). Entre essas linguagens, um terço das linguagens tem uma precisão LaBSE superior a 75%, e apenas 8 linguagens têm uma precisão menor que 25%, indicando que LaBSE tem um forte desempenho de transferência para linguagens sem dados de treinamento. Esta poderosa migração de idioma depende totalmente da natureza multilíngue em grande escala do LaBSE.

Precisão LaBSE do subconjunto de linguagem Tatoeba (usando códigos ISO 639-1 / 639-2) sem dados de treinamento

Extração de texto paralelo da web 

LaBSE pode ser usado para extrair bi-texto de dados em escala de rede. Por exemplo, aplicamos LaBSE ao CommonCrawl, um corpus em grande escala em um único idioma, para processar 560 milhões de sentenças em chinês e 330 milhões em alemão e extrair texto paralelo. Cada par de frases em chinês e alemão é codificado usando o modelo LaBSE e, em seguida, o vetor de incorporação codificado é usado para encontrar traduções potenciais da biblioteca de frases em inglês de 7,7 bilhões pré-processada e codificada pelo modelo. Use a pesquisa aproximada do vizinho mais próximo para pesquisar rapidamente vetores de incorporação de frases de alta dimensão.

Após uma triagem simples, o modelo retornou 261 milhões e 104 milhões de pares paralelos potenciais de pares inglês-chinês e inglês-alemão, respectivamente. O modelo NMT treinado usa dados de mineração para obter pontuações BLEU de 35,7 e 27,2 na tarefa de tradução WMT (wmt17 para inglês e chinês e wmt14 para inglês e alemão). Seu desempenho está apenas alguns pontos atrás do modelo SOTA atual treinado em dados paralelos de alta qualidade.

Em conclusão 

Estamos felizes em compartilhar os resultados e modelos desta pesquisa com a comunidade. A fim de apoiar pesquisas futuras nessa direção e possíveis aplicações downstream, o modelo pré-treinado foi lançado no tfhub. Também acreditamos que os resultados aqui são apenas o começo, e há questões de pesquisa mais importantes a serem resolvidas, como como construir um modelo melhor para suportar todas as linguagens.

  • Tfhub
    https://tfhub.dev/google/LaBSE/1

obrigado 

A equipe principal inclui Wei Wang, Naveen Arivazhagan e Daniel Cer. Gostaríamos de agradecer à equipe de idiomas do Google Research e a outras equipes do Google por seus comentários e sugestões. Agradecimentos especiais a Sidharth Mudgal e Jax Law por sua ajuda no processamento de dados e Jialu Liu, Tianqi Liu, Chen Chen e Anosh Raj por sua ajuda no pré-treinamento de BERT.

Mais leituras relacionadas com IA:

Acho que você gosta

Origin blog.csdn.net/jILRvRTrc/article/details/108860055
Recomendado
Clasificación