¡Fácil de usar y de alto rendimiento! Un artículo para comprender el marco de aprendizaje de transferencia de código abierto EasyTransfer

Introducción: Recientemente, Alibaba Cloud ha abierto oficialmente el marco de aprendizaje de transferencia profunda EasyTransfer, que es el primer marco de aprendizaje de transferencia profunda de la industria para escenarios de PNL. El marco es desarrollado por el equipo PAI de Aprendizaje automático en la nube de Alibaba, lo que hace que el desarrollo y la implementación del aprendizaje previo al modelo y la migración para escenarios de procesamiento del lenguaje natural sea más fácil y eficiente. Este artículo ofrecerá una interpretación detallada de EasyTransfer. Dirección de código abierto: https://github.com/alibaba/EasyTransfer

image.png
El aprendizaje de transferencia profunda para escenarios de procesamiento de lenguaje natural tiene una gran demanda en escenarios reales. Debido a que una gran cantidad de nuevos campos están surgiendo constantemente, el aprendizaje automático tradicional necesita acumular una gran cantidad de datos de entrenamiento para cada campo, lo que consumirá mucha mano de obra y anotaciones. Recursos materiales. La tecnología de aprendizaje de transferencia profunda puede transferir el conocimiento aprendido en el dominio de origen a la tarea del nuevo dominio, reduciendo así en gran medida los recursos de anotación.

Aunque existen muchos requisitos para el aprendizaje de transferencia profunda para escenarios de lenguaje natural, la comunidad de código abierto aún no tiene un marco completo, y es un gran desafío construir un marco simple, fácil de usar y de alto rendimiento.

  • En primer lugar, el modelo de preentrenamiento más la transferencia de conocimientos es ahora el modo de aplicación de PNL principal. Por lo general, cuanto mayor es el tamaño del modelo de preentrenamiento, más eficaz es la representación del conocimiento aprendido. Sin embargo, el modelo supergrande plantea grandes desafíos a la arquitectura distribuida del marco. Cómo proporcionar una arquitectura distribuida de alto rendimiento para respaldar eficazmente el entrenamiento de modelos a gran escala.
  • En segundo lugar, la diversidad de escenarios de aplicaciones de usuario es alta y no se puede aplicar un solo algoritmo de aprendizaje de migración Cómo proporcionar una herramienta de aprendizaje de migración completa para mejorar el efecto de los escenarios posteriores.
  • En tercer lugar, generalmente se necesita un vínculo largo desde el desarrollo del algoritmo hasta el aterrizaje empresarial: cómo proporcionar un servicio integral simple y fácil de usar desde la capacitación del modelo hasta la implementación.

Frente a estos tres desafíos, el equipo de PAI lanzó EasyTransfer, un marco de aprendizaje de transferencia simple, fácil de usar y de alto rendimiento. El marco admite algoritmos de aprendizaje de migración convencionales, admite precisión mixta automática, optimización de compilación y estrategias paralelas de modelo / datos distribuidos eficientes, y es adecuado para escenarios de aplicaciones distribuidas a nivel industrial.

Cabe mencionar que, con precisión mixta, optimización de compilación y estrategia distribuida, el modelo ALBERT soportado por EasyTransfer es más de 4 veces más rápido que la versión comunitaria de ALBERT en la velocidad de cálculo del entrenamiento distribuido.

Al mismo tiempo, después de más de 10 BU y más de 20 escenarios comerciales dentro de Ali, brinda a los usuarios de aprendizaje de PNL y migración una variedad de comodidades, incluida la cadena de herramientas de preentrenamiento de alto rendimiento líder en la industria y ModelZoo de preentrenamiento, y el rico y fácil de usar AppZoo. , Algoritmos de aprendizaje de migración eficientes y compatibilidad total con los productos ecológicos PAI de Alibaba, que brindan a los usuarios un servicio integral desde la capacitación del modelo hasta la implementación.

Lin Wei, jefe del equipo PAI de aprendizaje automático de Alibaba Cloud, dijo: Este código EasyTransfer de código abierto espera empoderar a más usuarios con las capacidades de Alibaba, reducir el umbral de preentrenamiento y transferencia de conocimientos de PNL, y también cooperar en profundidad con más socios. Cree una herramienta de aprendizaje sobre migración y PNL simple, fácil de usar y de alto rendimiento.

image.png

1. Seis aspectos destacados de EasyTransfer

Marco simple y de alto rendimiento

Al proteger la compleja implementación subyacente, los usuarios solo deben prestar atención a la estructura lógica del modelo, lo que reduce la barrera de entrada para el aprendizaje de la PNL y la migración; al mismo tiempo, el marco admite escenarios de aplicaciones distribuidas de nivel industrial, mejora el optimizador distribuido y coopera con la precisión y la compilación de mezcla automática La optimización y la estrategia paralela de modelos / datos distribuidos eficientemente logran una velocidad de computación más de 4 veces más rápida que la versión comunitaria del entrenamiento distribuido de múltiples tarjetas y múltiples máquinas.

Cadena de herramientas de pre-entrenamiento del modelo de lenguaje

Admite una cadena de herramientas de preentrenamiento completa, que es conveniente para que los usuarios entrenen previamente modelos de idiomas como T5 y BERT. Los modelos pre-entrenados basados ​​en esta cadena de herramientas han logrado buenos resultados en la lista CLUE de chino y la lista SuperGLUE en inglés.

Modelo rico y de alta calidad pre-entrenado ModelZoo

Soporta PAI-ModelZoo, Continuar Pretrain y Finetune de modelos convencionales como Bert, Albert, Roberta, XLNet, T5. Al mismo tiempo, apoya el modelo multimodal Fashionbert de desarrollo propio en la industria de la confección.

Aplicaciones ricas y fáciles de usar AppZoo
admite aplicaciones de NLP convencionales y aplicaciones de modelos de desarrollo propio, por ejemplo, admite DAM ++, HCNN y otros modelos de una sola torre con coincidencia de texto, así como el modelo BERT de doble torre + recuperación de vectores; admite BERT-HAE con comprensión de lectura, etc. modelo.

Herramienta de destilación automática de conocimientos

Apoyar la destilación del conocimiento, que se puede destilar de un modelo de maestro grande a un modelo de estudiante pequeño. Integra la compresión AdaBERT del modelo BERT consciente de la tarea, utiliza la búsqueda de arquitectura de red neuronal para buscar arquitectura relacionada con la tarea para comprimir el modelo BERT original, que se puede comprimir hasta 1/17 del original, y la inferencia se incrementa hasta 29 veces, y el modelo La pérdida de efecto está dentro del 3%.

Compatible con productos ecológicos PAI

El marco está desarrollado en base a PAI-TF. Los usuarios pueden utilizar el entrenamiento distribuido eficiente y autodesarrollado de PAI, la optimización de la compilación y otras características a través de un código simple o la modificación del archivo de configuración. ), plataforma de desarrollo (PAI DSW) y plataforma de servicio PAI (PAI EAS).

Descripción general de la arquitectura de dos plataformas

El marco general de EasyTransfer se muestra en la siguiente figura, que simplifica la dificultad de desarrollo del algoritmo del aprendizaje de transferencia profunda tanto como sea posible en el diseño. El marco abstrae IO, capas, pérdidas, optimizadores y modelos de uso común. Los usuarios pueden desarrollar modelos basados ​​en estas interfaces o pueden acceder directamente a la biblioteca de modelos de preentrenamiento ModelZoo para un modelado rápido. El marco admite cinco paradigmas de aprendizaje por transferencia (TL), ajuste fino de modelos, TL basado en características, TL basado en instancias, TL basado en modelos y meta aprendizaje. Al mismo tiempo, el marco integra AppZoo, es compatible con las aplicaciones principales de PNL y facilita a los usuarios crear aplicaciones de algoritmos de PNL comunes. Por último, el marco es perfectamente compatible con los productos ecológicos PAI, lo que brinda a los usuarios una experiencia única desde la capacitación hasta la implementación.

image.png

Explicación detallada de tres funciones de la plataforma

Las funciones principales del marco EasyTransfer se describen en detalle a continuación.

Diseño de interfaz API simple y fácil de usar
image.png

Marco distribuido de alto rendimiento

El marco EasyTransfer admite escenarios de aplicaciones distribuidas de nivel industrial, mejora el optimizador distribuido y coopera con precisión de mezcla automática, optimización de compilación y estrategias paralelas de modelos / datos distribuidos eficientes. PAI-ALBERT puede lograr más máquinas que la versión comunitaria de ALBERT La velocidad de cálculo del entrenamiento distribuido de Doka es más de 4 veces más rápida.

image.png

Rich ModelZoo

El marco proporciona un conjunto de herramientas de modelo de lenguaje de preentrenamiento para que los usuarios personalicen su propio modelo de preentrenamiento y, al mismo tiempo, proporciona una biblioteca de modelos de lenguaje de preentrenamiento ModelZoo para que los usuarios llamen directamente. Actualmente, se admiten más de 20 modelos de preentrenamiento. Entre ellos, PAI-ALBERT-zh preentrenado en la plataforma PAI ganó el primer lugar en la lista CLUE de China, y PAI-ALBERT-en-large ganó el segundo lugar en el SuperGLUE en inglés. La siguiente es una lista detallada de modelos previamente entrenados:

image.png

El efecto del modelo pre-entrenado en la lista CLUE:

image.png

El efecto de SuperGLUE:

image.png

Rich AppZoo

EasyTransfer encapsula AppZoo, que es un aprendizaje muy fácil de usar, flexible y de bajo costo. Ayuda a los usuarios a ejecutar algoritmos de código abierto "de vanguardia" y de desarrollo propio a "gran escala" con solo unas pocas líneas de comandos para acceder rápidamente a diferentes escenarios y negocios. Las aplicaciones de PNL bajo datos incluyen vectorización de texto, emparejamiento, clasificación, comprensión de lectura y etiquetado de secuencias.

image.png

Algoritmo de aprendizaje por transferencia eficiente

El marco EasyTransfer es compatible con todos los paradigmas de aprendizaje de transferencia convencionales, incluido el ajuste fino de modelos, TL basado en características, TL basado en instancias, TL basado en modelos y Meta Learning. Sobre la base de estos paradigmas de aprendizaje de la migración, se han desarrollado más de 10 algoritmos y se han logrado buenos resultados en las prácticas comerciales de Ali. Todos los algoritmos posteriores serán de código abierto a la base del código EasyTransfer. En aplicaciones específicas, los usuarios pueden elegir un paradigma de aprendizaje por transferencia para probar el efecto de acuerdo con la siguiente figura.

image.png

Modelo de lenguaje pre-entrenado

Uno de los temas candentes del procesamiento del lenguaje natural es el pre-entrenamiento de modelos de lenguaje como BERT y ALBERT, que han logrado muy buenos resultados en varios escenarios de procesamiento del lenguaje natural. Con el fin de ayudar mejor a los usuarios a usar modelos de lenguaje previamente entrenados, hemos implantado un conjunto de paradigmas estándar de modelos de lenguaje previamente entrenados y la biblioteca de modelos de lenguaje previamente entrenados ModelZoo en la nueva versión del marco de aprendizaje por transferencia EasyTransfer. Para reducir el número total de parámetros, el Albert tradicional canceló la forma de apilamiento del codificador de bert y, en su lugar, utilizó el método de bucle del codificador, como se muestra en la siguiente figura. El método de ciclo completo no funciona muy bien en las tareas posteriores, por lo que cambiamos el ciclo completo a un ciclo completo en un codificador apilado de 2 capas. Luego volvimos a entrenar el Albert xxlarge en base a los datos de C4 en inglés. En el proceso de preentrenamiento, solo usamos pérdida de MLM, combinada con Whole Word Masking, y en base a la función Train on the fly de EasyTransfer, hemos implementado enmascaramiento dinámico en línea, es decir, podemos generar enmascaramiento dinámicamente cada vez que se lee la oración original. tokens. Nuestro modelo final de preentrenamiento, PAI-ALBERT-en-large, ocupó el segundo lugar en el mundo y el primero en China en la lista SuperGLUE. Los parámetros del modelo son solo 1/10 del primer Google T5, y la brecha de efecto está dentro del 3,5%. En el futuro, continuaremos optimizando el marco del modelo y nos esforzaremos por lograr mejores resultados que T5 con 1/5 de los parámetros del modelo.

image.png

Modelo multimodal FashionBERT

Con el desarrollo de la tecnología web, Internet contiene una gran cantidad de información multimodal, que incluye texto, imágenes, voz, video, etc. La búsqueda de información importante a partir de información multimodal masiva siempre ha sido el foco de la investigación académica. El núcleo de la concordancia multimodal es la concordancia de texto e imágenes. Esta es también una investigación básica. Tiene muchas aplicaciones en muchos campos, como la generación de leyendas de imágenes e infrarrojos entre modalidades. ), sistema de respuesta a preguntas de imagen (Respuesta a preguntas de visión), razonamiento de conocimiento de imágenes (Razonamiento de sentido común visual). Sin embargo, la investigación académica actual se centra en la investigación multimodal en campos generales, y hay relativamente pocos estudios multimodales en el campo del comercio electrónico. En base a esto, cooperamos con el equipo de Ali ICBU para proponer el modelo de preentrenamiento multimodal FashionBERT, que lleva a cabo una investigación previa a la capacitación sobre información gráfica en el campo del comercio electrónico, y ha tenido éxito en múltiples escenarios comerciales, como la recuperación transmodal y la coincidencia gráfica. Aplicaciones. El diagrama de la arquitectura del modelo se muestra a continuación. Este trabajo propone Adaptive Loss, que se utiliza para equilibrar la pérdida de tres partes de coincidencia gráfica, imagen pura y texto puro.

image.png

Destilación de conocimientos adaptables a tareas

El modelo de preentrenamiento extrae conocimiento general de datos masivos no supervisados ​​y mejora el efecto de las tareas posteriores a través del método de transferencia de conocimiento, logrando excelentes resultados en la escena. Generalmente, cuanto mayor es el tamaño del modelo de pre-entrenamiento, más efectiva es la representación del conocimiento aprendido para las tareas posteriores y más obvia es la mejora del índice. Sin embargo, los modelos grandes obviamente no pueden cumplir con los requisitos de puntualidad de las aplicaciones industriales, por lo que se debe considerar la compresión del modelo. Trabajamos con el equipo de Computación Inteligente de Alibaba para proponer un nuevo método de compresión, AdaBERT, que utiliza la Búsqueda de Arquitectura Neural Diferenciable para comprimir automáticamente BERT en un modelo pequeño adaptable a tareas.

En este proceso, utilizamos BERT como modelo de profesor para refinar su conocimiento útil sobre la tarea objetivo; bajo la guía de este conocimiento, buscamos de forma adaptativa una estructura de red adecuada para la tarea objetivo y la comprimimos para obtener un modelo de estudiante a pequeña escala. Hemos realizado evaluaciones experimentales en múltiples tareas públicas de PNL. Los resultados muestran que el modelo pequeño comprimido por AdaBERT puede garantizar que la lectura intensiva sea equivalente, mientras que la velocidad de inferencia es de 12,7 a 29,3 veces más rápida que el BERT original, y la escala del parámetro es de 11,5 a 17,0 veces menor que el BERT original. .

image.png

Aprendizaje de relaciones de campo de escenario de control de calidad

Ya en 2017, probamos el aprendizaje de la migración en la escena de preguntas y respuestas de Alibaba Xiaomi, y nos enfocamos principalmente en TL supervisado basado en DNN. Hay dos marcos principales para este tipo de algoritmo, uno es Totalmente compartido (FS) y el otro es Específico compartido (SS). La mayor diferencia entre los dos es que el primero solo considera la representación compartida, mientras que el segundo considera la representación específica. En términos generales, el efecto modelo de SS es mejor que el de FS, porque FS puede considerarse como un caso especial de SS. Para SS, en el caso ideal, la parte compartida representa la comunidad de los dos campos y la parte específica representa las características. Sin embargo, a menudo nos resulta difícil lograr tal efecto, por lo que consideramos usar una pérdida contradictoria y una correlación de dominio para ayudar al modelo a aprender estas dos características. En base a esto, proponemos un nuevo algoritmo, hCNN-DRSS, cuya arquitectura es la siguiente:

image.png

Aplicamos este algoritmo a los escenarios comerciales reales de Xiaomi y obtuvimos buenos resultados en múltiples escenarios comerciales (AliExpress, Vientiane, Lazada).

Aprendizaje de transferencia reforzado

La eficacia del aprendizaje sobre la migración depende en gran medida de la brecha entre el dominio de origen y el dominio de destino. Si la brecha es relativamente grande, es probable que la migración no sea válida. En el escenario de Xiaomi QA, si migra directamente los datos de coincidencia de texto de Quora, muchos de ellos no son adecuados. En el escenario de control de calidad de Xiaomi, basado en el algoritmo Actor-Critic, creamos un marco general de aprendizaje de migración reforzado y usamos RL para la selección de muestras para ayudar al modelo TL a lograr mejores resultados. Todo el modelo se divide en tres partes, modelo básico de garantía de calidad, modelo de aprendizaje por transferencia (TL) y modelo de aprendizaje por refuerzo (RL). Entre ellos, la función de política de RL es responsable de seleccionar muestras de alta calidad (acciones), el modelo TL entrena el modelo QA en las muestras seleccionadas y proporciona retroalimentación a RL, y RL actualiza las acciones de acuerdo con la retroalimentación (recompensa). El modelo entrenado por este marco ha logrado una muy buena mejora en la precisión de coincidencia de los modelos de coincidencia tanto ruso como español de AliExpress en Double 11 AliExpress.

image.png

Antiguo favor Meta Ajuste fino

La amplia aplicación de modelos de lenguaje de pre-formación hace que el modelo de formación en dos etapas de Pre-formación + Ajuste fino sea la corriente principal. Hemos notado que en la etapa de ajuste fino, los parámetros del modelo solo se ajustan en campos específicos y conjuntos de datos específicos, sin considerar el efecto de la migración y ajuste de datos entre dominios. El algoritmo de meta-ajuste fino se basa en la idea de meta-aprendizaje y tiene como objetivo aprender al meta-aprendiz de dominio cruzado de modelos de lenguaje pre-entrenados, de modo que el meta-aprendiz aprendido pueda ser rápidamente transferido a tareas en un dominio específico. Este algoritmo aprende la tipicidad entre dominios (es decir, la transferibilidad) de las muestras de datos de entrenamiento y agrega un clasificador de corrupción de dominio al modelo de lenguaje de preentrenamiento, de modo que el modelo aprende más representaciones invariantes de dominio.

image.png

Aplicamos el algoritmo de ajuste fino a BERT y realizamos experimentos en múltiples tareas, como la inferencia del lenguaje natural y el análisis de sentimientos. Los resultados experimentales muestran que el algoritmo de meta-ajuste es superior al algoritmo de ajuste fino original de BERT y al algoritmo de ajuste fino basado en el aprendizaje por transferencia en estas tareas.

Destilación de metaconocimiento

Dado que los modelos de lenguaje previamente entrenados como BERT han logrado efectos SOTA en varias tareas, modelos como BERT se han convertido en una parte importante de la canalización de aprendizaje de migración profunda de PNL. Pero BERT no es perfecto. Este tipo de modelo todavía tiene los siguientes dos problemas: la cantidad de parámetros del modelo es demasiado grande y la velocidad de entrenamiento / inferencia es lenta. Por lo tanto, una dirección es destilar el conocimiento de BERT en un modelo pequeño. Sin embargo, la mayor parte del trabajo de destilación del conocimiento se centra en el mismo campo, ignorando el problema de mejorar las tareas de destilación en todos los campos. Proponemos utilizar Meta Learning para aprender conocimiento transferible entre dominios y, además, destilar el conocimiento transferible en la etapa de destilación. Este enfoque ha mejorado significativamente el efecto del modelo de estudiante aprendido en el campo correspondiente Hemos destilado un mejor modelo de estudiante en múltiples tareas de dominio cruzado, que se aproxima al efecto del modelo del maestro. Resolveremos este trabajo en un futuro próximo y publicaremos código y artículos.

Cuatro artículos innovadores

El marco EasyTransfer se ha implementado en docenas de escenarios de PNL en Alibaba Group, incluido el servicio al cliente inteligente, la recomendación de búsqueda, el control de riesgos de seguridad y el entretenimiento, lo que ha tenido importantes efectos comerciales. En la actualidad, EasyTransfer tiene cientos de millones de llamadas a sus servicios diarios y el volumen promedio mensual de llamadas de capacitación supera las 50.000. El equipo de EasyTransfer ha acumulado una gran cantidad de soluciones de algoritmos innovadores mientras lograba el negocio, incluido el metaaprendizaje, la capacitación previa multimodal, el aprendizaje de transferencia mejorado, el aprendizaje de transferencia de funciones, etc., y ha colaborado y publicado docenas de artículos de conferencias importantes. , A continuación se muestran algunos trabajos representativos. Estos algoritmos serán de código abierto en el marco de EasyTransfer para que los utilicen la mayoría de los usuarios.

  • [EMNLP 2020]. Modelos de lenguaje neuronal de meta-ajuste fino para minería de texto multidominio. EMNLP 2020. Ponencia completa.
  • [SIGIR 2020] FashionBERT: Coincidencia de texto e imagen para el dominio de la moda con pérdida adaptativa.
  • [ACM MM 2020] Aprendizaje único para el etiquetado de campos de texto en la extracción de información de estructura. A aparecer, artículo oral completo.
  • [IJCAI 2020] AdaBERT: Compresión BERT adaptable a tareas con búsqueda de arquitectura neuronal diferenciable, IJCAI 2020.
  • [KDD 2019] Un juego Minimax para el aprendizaje de transferencia selectiva basado en instancias. Oral, KDD 2019.
  • [CIKM 2019] Red de atención entre dominios con regularizadores de Wasserstein para búsqueda de comercio electrónico, CIKM 2019.
  • [WWW 2019] CNN bloqueada de varios dominios para la predicción de utilidad de revisión, WWW.
  • [SIGIR 2019]. BERT con modelado histórico para responder preguntas conversacionales. SIGIR 2019.
  • [WSDM 2019]. Aprender a transferir de forma selectiva: Aprendizaje de transferencia reforzado para una correspondencia de texto profunda. WSDM 2019, artículo completo.
  • [ACL 2018]. Transferir el aprendizaje para la correspondencia de preguntas sensibles al contexto en los sistemas de conversación de búsqueda de información en el comercio electrónico. ACL. 2018.
  • [SIGIR 2018]. Ranking de respuesta con redes de emparejamiento profundo y conocimiento externo en sistemas de conversación de búsqueda de información. Papel largo.
  • [WSDM 2018]. Modelado de relaciones de dominio para el aprendizaje de transferencia en sistemas de respuesta a preguntas basados ​​en la recuperación en el comercio electrónico, 2018. Documento largo.
  • [CIKM 2017]. AliMe Assist: un asistente inteligente para crear una experiencia de comercio electrónico innovadora, CIKM 2017, Documento de demostración, Premio a la mejor demostración.
  • [ICDM 2017]. Un modelo de predicción de precipitaciones a corto plazo utilizando redes neuronales convolucionales multitarea. Documento largo, ICDM 2017.
  • [ACL 2017]. AliMe Chat: una secuencia para secuenciar y relanzar el motor de chatbot basado en ACL 2017.
  • [arXiv]. KEML: Un marco de metaaprendizaje enriquecido con conocimientos para la clasificación de relaciones léxicas, arXiv.

Finalmente, la herramienta EasyTransfer es un conjunto de herramientas recomendado oficialmente por la comunidad CLUE china. Al mismo tiempo, la plataforma Alibaba Cloud Tianchi trabajará con la comunidad CLUE para crear un concurso de comprensión semántica multitarea. EasyTransfer es la herramienta de desarrollo predeterminada. Los usuarios pueden construir fácilmente una línea de base multitarea basada en EasyTransfer y realizar modelado y optimización. Por favor, espere.

Enlace original: https://developer.aliyun.com/article/776240?

Declaración de derechos de autor: el contenido de este artículo es aportado espontáneamente por usuarios registrados de nombre real de Alibaba Cloud. Los derechos de autor pertenecen al autor original. La comunidad de desarrolladores de Alibaba Cloud no posee sus derechos de autor y no asume las responsabilidades legales correspondientes. Consulte el "Acuerdo de servicio al usuario de la comunidad de desarrolladores de Alibaba Cloud" y las "Directrices de protección de propiedad intelectual de la comunidad de desarrolladores de Alibaba Cloud" para conocer las reglas específicas. Si encuentra que existe una sospecha de plagio en esta comunidad, complete el formulario de queja por infracción para informarlo. Una vez verificado, la comunidad eliminará inmediatamente el contenido sospechoso de infracción.

Supongo que te gusta

Origin blog.csdn.net/alitech2017/article/details/109241266
Recomendado
Clasificación