LaBSE: modelo vectorial de incrustación BERT multilingüe que admite 109 idiomas

Ingeniero de texto / software Yinfei Yang y Fangxiaoyu Feng, Google Research

El modelo vectorial de incrustación multilingüe es una herramienta poderosa que puede codificar textos en diferentes idiomas en un espacio vectorial de incrustación compartido. Se puede aplicar a una serie de tareas posteriores, como clasificación de texto, agrupación, etc., y también puede usar información semántica para comprender Idioma. Los métodos existentes para generar dichos vectores de incrustación (como LASER o m ~ USE ) se basan en datos paralelos para mapear directamente oraciones de un idioma a otro y promover la coherencia entre los vectores de incrustación de oraciones .

Los métodos multilingües existentes pueden lograr un buen rendimiento general en varios idiomas, pero en comparación con el modelo bilingüe dedicado, los métodos existentes generalmente funcionan mal en idiomas de altos recursos. El modelo bilingüe dedicado puede usar métodos tales como tareas de clasificación de traducción de pares de traducción como datos de entrenamiento para obtener representaciones de alineación más cercanas. Además, debido a que la capacidad del modelo es limitada y la calidad de los datos de entrenamiento para idiomas de bajos recursos es a menudo deficiente, un modelo de varios idiomas puede ser difícil de expandir y no puede admitir más idiomas mientras mantiene un buen rendimiento.

  • Tarea de clasificación de traducción
    https://www.aclweb.org/anthology/W18-6317.pdf

Ilustración de espacio vectorial de incrustación multilingüe

Los últimos logros en la mejora de los modelos de lenguaje incluyen el desarrollo de la formación previa del Modelo de lenguaje enmascarado (MLM), como  los utilizados por BERT , ALBERT y RoBERTa. Este método solo requiere texto monolingüe, por lo que funciona bien en una variedad de tareas de procesamiento del lenguaje natural.

  • Modelo de lenguaje de enmascaramiento
    https://www.aclweb.org/anthology/N19-1423/

  • RoBERTa
    https://arxiv.org/abs/1907.11692

Además, al modificar el entrenamiento MLM para incluir pares de traducción en cascada (Translation Language Modeling (TLM)), o simplemente al introducir datos de entrenamiento previo de varios idiomas, el entrenamiento previo MLM puede extenderse a varios idiomas. alrededores. Aunque las representaciones del modelo interno aprendidas durante el entrenamiento de MLM y TLM son útiles para ajustar las tareas posteriores, no pueden generar directamente los vectores de inserción de oraciones necesarios para las tareas de traducción sin objetivos a nivel de oraciones.

  • Modelado de idiomas de traducción
    https://arxiv.org/abs/1901.07291

En Incrustación de oraciones BERT independiente del idioma (Incrustación de oraciones BERT independiente del idioma) , proponemos un  modelo de vector de incorporación BERT multilingüe llamado LaBSE , que puede generar vectores de incorporación de oraciones en varios idiomas independientes del idioma para 109 idiomas. LaBSE pre-entrenado usando MLM y TLM en 17 mil millones de oraciones simples y 6 mil millones de pares de oraciones bilingües El modelo entrenado también es efectivo para idiomas de bajos recursos que no tienen datos disponibles durante el entrenamiento. Además, el modelo ha establecido el nivel de vanguardia (SOTA) en múltiples tareas de recuperación de texto paralelo (también conocido como bitext). El modelo previamente entrenado se ha lanzado a la comunidad a través de tfhub, incluidos módulos que se pueden usar directamente o ajustar con datos específicos del dominio.

  • Integración de frases BERT independientes del idioma en
    https://arxiv.org/abs/2007.01852

  • BERT
    https://www.aclweb.org/anthology/N19-1423/

  • Tfhub
    https://tfhub.dev/google/LaBSE/1

Admite la recopilación de datos de capacitación en 109 idiomas

modelo

En una investigación anterior, propusimos utilizar la tarea de clasificación de traducción para aprender oraciones multilingües que integran el espacio vectorial. Este método recibe una oración en el idioma de origen, deje que el modelo clasifique la traducción real en el conjunto de oraciones en el idioma de destino. La tarea de clasificación de traducción se entrena utilizando una arquitectura de codificador dual con un codificador convertidor compartido. El modelo bilingüe generado ha logrado un rendimiento de vanguardia (SOTA) en múltiples tareas de recuperación de texto en paralelo (incluidas las Naciones Unidas y BUCC). Sin embargo, debido a las limitaciones de la capacidad del modelo, la cobertura de vocabulario, la calidad de los datos de entrenamiento, etc., cuando el modelo de lenguaje dual se amplía para admitir varios idiomas (un total de 16 idiomas en el caso de prueba), el rendimiento del modelo disminuye.

  • Investigación anterior
    https://www.ijcai.org/Proceedings/2019/0746.pdf

Tarea de clasificación de traducción: dada una oración en el idioma de origen, la tarea es encontrar la traducción verdadera en la oración establecida en el idioma de destino

Para LaBSE, aprovechamos los avances recientes en la capacitación previa del modelo de lenguaje, incluidos MLM y TLM, en una arquitectura similar a BERT, y ajustamos la clasificación de las tareas de traducción. Utilice MLM y TLM para entrenar previamente un Transformer de 12 capas con 500,000 palabras simbólicas en 109 idiomas para aumentar la cobertura de modelos y palabras. El modelo LaBSE resultante proporciona soporte ampliado para 109 idiomas en un solo modelo .

  • BERT
    https://arxiv.org/pdf/1810.04805.pdf

  • Transformer
    https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

Con la arquitectura de codificador dual, el texto de origen y el texto de destino se codifican respectivamente utilizando una red vectorial integrada de convertidor de parámetro compartido. Aplicar tareas de clasificación de traducción para obligar a los textos interpretados mutuamente a tener expresiones similares. El convertidor que incorpora la red vectorial se inicializa desde los puntos de control BERT capacitados en tareas de MLM y TLM

Rendimiento en la recuperación de texto en varios idiomas

Usamos el modelo de evaluación de corpus de Tatoeba, que contiene 1000 pares de oraciones alineadas en inglés en 112 idiomas. Para más de 30 idiomas en el conjunto de datos, el modelo no tiene datos de entrenamiento. La tarea del modelo es calcular la distancia del coseno para encontrar la traducción del vecino más cercano de una oración dada.

  • Colección de números de Tatoeba
    https://github.com/facebookresearch/LASER/tree/master/data/tatoeba/v1

Para comprender el rendimiento del modelo de idioma en el idioma inicial o final de la distribución de datos de entrenamiento, dividimos el conjunto de idiomas en varios grupos y calculamos la precisión promedio de cada grupo. Seleccione los primeros 14 grupos de idiomas de los idiomas admitidos por m ~ USE Estos idiomas cubren el idioma del jefe de distribución ( idioma principal ). También evaluamos un grupo de segundo idioma que consta de 36 idiomas del punto de referencia XTREME . El tercer grupo de 82 idiomas seleccionado de los idiomas cubiertos por los datos de entrenamiento de LASER incluye muchos idiomas al final de la distribución ( idiomas finales ). Finalmente, calcule la precisión promedio de todos los idiomas.

La siguiente tabla enumera la precisión promedio lograda por LaBSE para cada grupo de idiomas en comparación con los modelos m ~ USE y LASER. Como era de esperar, todos los modelos funcionaron bien en 14 grupos de idiomas que cubren la mayoría de los idiomas principales. Con el aumento de idiomas, la precisión promedio de LASER y LaBSE ha disminuido. Sin embargo, la precisión del modelo LaBSE tiene una disminución mucho menor, que es significativamente mejor que LASER, especialmente cuando 112 idiomas están completamente distribuidos (tasas de precisión del 83,7% y 65,5%, respectivamente).

modelo 14 idiomas 36 idiomas 82 idiomas Todos los idiomas
m ~ USAR * 93,9 - - -
LÁSER 95,3 84,4 75,9 65,5
LaBSE 95,3 95,0 87,3 83,7

La precisión promedio (%) del conjunto de datos de Tatoeba. El grupo "14 idiomas" está compuesto por idiomas admitidos por m ~ USE, el grupo "36 idiomas" incluye los idiomas seleccionados por XTREME, el grupo "82 idiomas" representa los idiomas cubiertos por el modelo LASER. El grupo "Todos los idiomas" incluye todos los idiomas admitidos por Taoteba

* Hay dos modelos m ~ USE, uno se basa en la arquitectura de red neuronal convolucional y el otro se basa en una arquitectura similar a Transformer. Aquí solo se compara con la versión Transformer

Soporte para idiomas no entrenados

El rendimiento promedio de todos los idiomas en Tatoeba es prometedor. Vale la pena señalar que LaBSE incluso logró un rendimiento relativamente bueno en más de 30 idiomas de Tatoeba sin datos de entrenamiento (ver más abajo). Entre estos idiomas, un tercio de los idiomas tienen una precisión de LaBSE superior al 75%, y solo 8 idiomas tienen una precisión inferior al 25%, lo que indica que LaBSE tiene un alto rendimiento de transferencia para idiomas sin datos de entrenamiento. Esta poderosa migración de idiomas se basa completamente en la naturaleza multilingüe a gran escala de LaBSE.

Precisión de LaBSE del subconjunto de idiomas Tatoeba (usando códigos ISO 639-1 / 639-2) sin datos de entrenamiento

Minería de texto paralelo desde la web 

LaBSE se puede utilizar para extraer bi-texto de datos a escala de red. Por ejemplo, aplicamos LaBSE a CommonCrawl, un corpus de un solo idioma a gran escala, para procesar 560 millones de oraciones en chino y 330 millones en alemán y extraer texto paralelo. Cada par de oraciones en chino y alemán se codifica utilizando el modelo LaBSE, y luego el vector de incrustación codificado se utiliza para encontrar posibles traducciones de la biblioteca de oraciones en inglés de 7.700 millones preprocesados ​​y codificados por el modelo. Utilice la búsqueda de vecino más cercano aproximado para buscar rápidamente vectores de inserción de oraciones de alta dimensión.

Después de una simple selección, el modelo arrojó 261 millones y 104 millones de pares paralelos potenciales de pares inglés-chino e inglés-alemán, respectivamente. El modelo NMT entrenado utiliza los datos de minería para obtener puntuaciones BLEU de 35,7 y 27,2 en la tarea de traducción WMT (wmt17 para inglés y chino, wmt14 para inglés y alemán). Su rendimiento está solo unos pocos puntos por detrás del modelo SOTA actual entrenado en datos paralelos de alta calidad.

En conclusión 

Estamos felices de compartir los resultados y modelos de esta investigación con la comunidad. Con el fin de respaldar una mayor investigación en esta dirección y posibles aplicaciones posteriores, el modelo previamente entrenado se ha lanzado en tfhub. También creemos que los resultados aquí son solo el comienzo, y hay problemas de investigación más importantes que resolver, como cómo construir un mejor modelo para admitir todos los idiomas.

  • Tfhub
    https://tfhub.dev/google/LaBSE/1

Gracias 

El equipo central incluye a Wei Wang, Naveen Arivazhagan, Daniel Cer. Nos gustaría agradecer al equipo de idiomas de Google Research y a otros equipos de Google por sus comentarios y sugerencias. Un agradecimiento especial a Sidharth Mudgal y Jax Law por su ayuda en el procesamiento de datos; y a Jialu Liu, Tianqi Liu, Chen Chen y Anosh Raj por su ayuda en el entrenamiento previo de BERT.

Más lecturas relacionadas con la IA:

Supongo que te gusta

Origin blog.csdn.net/jILRvRTrc/article/details/108860055
Recomendado
Clasificación