La publicidad de la industria en esas series interesantes 6: Línea de BERT ALBERT teoría y práctica del proyecto de optimización (github adjunto)

Resumen: BERT efecto bueno y porque dos grandes ventajas para una amplia gama, por lo que un hito en el campo de NLP. El proyecto actual se utiliza principalmente para hacer las tareas de clasificación de texto BERT, de hecho, para jugar una etiqueta de texto. Debido a que el modelo original de pre-entrenamiento BERT ecológica fácilmente unos pocos cientos o incluso en el tamaño del gigabit, velocidad del tren modelo es muy lenta, para el BERT línea de modelo en muy poco amigable. Actualmente estudio Benpian más fuego BERT últimos productos derivados ALBERT BERT se realiza el servicio en línea. Las técnicas de reducción de parámetros ALBERT para reducir el consumo de memoria y, en definitiva, para mejorar la formación BERT velocidad, y están entre los mejores de los principales puntos de referencia, se puede describir como correr rápido, sino también correr bien. Esperamos que sea de su interés requiere línea de BERT ligeramente más pequeño ayudan a los socios.


Catálogo
01 Antecedentes del proyecto
02 de BERT que ALBERT
03 millas Paso uno: Modelo Xianpao través de
más de 04 prácticas tarea de clasificación
Resumen




01 Antecedentes del proyecto

modelo original previa a la formación ecológica BERT fácilmente unos pocos cientos o incluso en el tamaño del gigabit, el entrenamiento de velocidad muy reducir la velocidad de la línea de modelo en muy poco amigable. Con el fin de lograr el modelo BERT problema de línea, de hecho, es la rapidez con un buen modelo de formación, el proyecto de investigación actualmente ultra fuego BERT últimos productos derivados ALBERT puede resolver los problemas anteriores.

ALBERT por el papel: propuesta de "Albert A Lite BERT Para la auto Supervisado Learningof Idioma Representaciones" por venir. Aumentar el tamaño del modelo de pre-entrenamiento en circunstancias normales puede mejorar el modelo de rendimiento en tareas downstream, pero debido a la "memoria restricciones GPU / TPU, el tiempo de entrenamiento más largo y degenerados modelo inesperados" y otros temas, los autores propusieron el modelo ALBERT.

De papel descarga:


ALBERT comprensión popular es que un menor número de parámetros Bert modelo ligero. ALBERT BERT es lo último en productos derivados, aunque ligero, pero no se descarta el efecto, en los principales puntos de referencia están entre los mejores.

BERT del 02 al ALBERT

aparecen antecedentes 1. ALBERT

ya que la profundidad de campo de aprendizaje de detonación de visión por ordenador, una forma de mejorar el rendimiento del modelo de la manera más simple y más eficaz para aumentar la profundidad de la red. Bajo la figura de tomar fotografías tareas de clasificación, por ejemplo, puede ser visto como la red sigue aumentando el número de capas, el efecto del modelo será una gran mejora:

Un modelo de red para mejorar el efecto de aumento del número de capas en la fig.


La misma situación se produce en el BERT, tal como la red se hace más profunda modelo más amplio efecto de elevación obtiene:

modelo de la figura 2 BERT como la red se hace más ancho efecto de profundidad es mejorar la


Pero la red se hace más profunda amplió traer un problema importante: la explosión de parámetros. Aquí la cantidad de maquetas parámetros BERT se ven diferentes parámetros del cambio "grasa" de la carretera:

Figura 3 parámetros BERT explosión


¿Cómo hacer, por lo BERT no es tan "grasa", pero el efecto es todavía bueno enfoque de la investigación académica es cómo uno de la línea de BERT de prioridades. También es ALBERT do.

2. El BERT "grasa" ¿Dónde

quiere más delgado BERT, saber primero la "carne" de largo, donde. BERT usando transformador como un extractor de características, que es la fuente de los parámetros BERT. Antes de la industria de la publicidad en los que interesante serie 4: Comentarios de papel de apoyo al transformador horneado mitad C-bits muy análisis en profundidad del transformador, los socios pequeños que están de vuelta mirada puede interesar.

Transformador principal fuente de bloques de parámetros: un primer módulo de mapeo de bloques de contadores incrustación parámetro representa más de 20%, el segundo bloque es atención a la capa de realimentación y la capa frontal, la FFN, cuentas parámetro para más de 80%.

Un diagrama de configuración de la Fig. 4 parámetros de la fuente de transformador y BERT

3. estrategias de optimización ALBERT

estrategia En primer lugar, los parámetros de incrustación de factorización (factorizada incrustación de la parametrización)

BERT mapeado vector de una sola caliente a un alto palabras espacio dimensional, el parámetro es la cantidad de O (VXH), ALBERT factorización se utiliza primera realización la palabra vector de una sola caliente mapeado en poco espacio dimensional (tamaño e), y luego asigna de nuevo a una alta dimensión espacio (tamaño H), de modo que los parámetros utilizados son solamente O (VXE + EXH), si e << cuando cantidad parámetro H se reducirá mucho. Aquí reducir algunos de parámetro BERT token de incrustación de la primera parte de la anteriormente dicho, es, en cierta medida.

Las causas pueden ser reducidos por la cantidad de factorización de los parámetros son contexto incrustación contador independiente se convierte en denso de una sola caliente vector por vector. FFN y la segunda parte de la atención como una capa oculta es dependiente del contexto, contienen más información. Así que haciendo un menor que H E intermediario de la palabra vector de una sola calor para ir a través de una matriz de incrustación de bajas dimensiones, a continuación, asigna de nuevo a la matriz de alta dimensión incrustación es factible. El cuadro rojo muestra la factorización de piezas:

La figura 5 de factorización parámetros para reducir la cantidad de

Ver contador efecto incrustación factorización: La reducción global del 17% de los parámetros del modelo, pero sólo el efecto de reducir el modelo de menos de 1%.

La figura 6 factorización parámetros para reducir el efecto de la cantidad de


Parámetros (parámetro de intercambio de Cross-Layer) entre las dos estrategias, las capas compartidos

por capas Transformador análisis paramétrico mostraron parámetros visuales similares de cada capa, se asigna más atención en [los CLS] en el token y diagonal , por lo que puede utilizar el parámetro esquema de intercambio de cross-layer.

En términos generales, el parámetro cruzada capa correspondiente a la estructura del codificador transformador compartido hay dos opciones: una es un módulo de atención compartida parámetro, el otro es los parámetros de la capa de red neuronal feedforward FFN compartidos. Los resultados específicos como se muestra a continuación:

7 utilizando los parámetros compartidos en el modelo de parámetros y el efecto cantidad

Cuando el espacio de pocas dimensiones se asigna a E = 768, y la comparación no se comparte parámetros compartido capa parámetros FFN se puede ver, el parámetro se reduce en casi un 50%, que es principalmente debido al efecto de los cables de modelo a disminuir. Los parámetros de la capa atención compartida es un menor impacto en los resultados del modelo.

Estrategia Tres, acumulación de tareas de autoaprendizaje - una predicción frase coherente

(Frase siguiente Predicción) misión a través de la transformación de NSP, PRECAPACITACIóN misión de mejorar el aprendizaje continuo mejorado de la frase.

La publicidad de la industria en los que interesante serie 3: la PNL en estrella BERT clave explicó modelo BERT, que se refiere al BERT logros sobresalientes en los últimos años el campo de la PNL maestro de la innovación en sí es principalmente aleatoria modelo de lenguaje blindado enmascarado LM y la siguiente frase predecir la predicción de la siguiente frase. socios interesados pueden volver la próxima poco mejor mirando.

NSP tarea en sí es una tarea de clasificación binaria, el objetivo es predecir si las dos frases son declaraciones consecutivos. NSP en realidad contiene dos sub-tareas, que son objeto de predicción y previsión relaciones de consistencia. NSP tarea de seleccionar el mismo documento en dos sentencias consecutivas como una muestra positiva, elegir una sentencia diferente como documento de muestras negativas. Porque a partir de diferentes documentos, la diferencia puede ser muy grande. Con el fin de mejorar la capacidad del modelo para predecir la frase continua, ALBERT propuso una nueva tarea SOP (SenteceOrder Predicción), un modo de adquisición de muestras positivas y el mismo NSP, la declaración será el orden de las muestras negativas las muestras positivas invierte.

SOP y muestra el efecto de NSP como se muestra a continuación:

La figura 8 SOP y muestran el efecto de NSP

Como puede verse en la figura, la tarea no se puede predecir el tipo de NSP SOP de la tarea, se puede predecir tarea SOP NSP. En general, el modelo también es superior al efecto de la tarea SOP tarea NSP.

Estrategia 4, para eliminar Dropout

Dropout principalmente para evitar exceso de montaje, pero el real MLM generalmente no es fácil de exceso de montaje. Dropout también puede retirarse a fin de mejorar efectivamente menos variable intermedia durante la formación de utilización de la memoria del modelo.

La figura 9 Efecto efectos de deserción

Otras estrategias: la anchura y la profundidad del impacto en la red modelo de efectos

1. Profundidad de red es más profundo es el mejor
contraste ALBERT se pueden encontrar en diferentes profundidades en efecto: Con las capas cada vez más profundas, modelar los efectos de las diferentes tareas de PNL hay una cierta actualización. Pero esta situación no es absoluta, pero disminuirá el efecto de algunas tareas.

Efecto de la profundidad de la red 10 de la figura.

2. si la anchura de la red más amplia mejor
modelo de profundidad de contraste en el que el efecto de las diferentes redes anchuras modelos ALBERT-grandes se puede encontrar 3: Efecto de la anchura y la profundidad del modelo similar, con el aumento de la anchura del modelo de red es que los efectos de diferentes tareas NLP hay cierta actualización. Algunas tareas serán el efecto de la presencia de la disminución.

Efecto de la red 11 de anchura figura

En general, la esencia es el uso de las tecnologías de reducción de ALBERT parámetros para reducir el consumo de memoria y, en definitiva, para mejorar la formación BERT velocidad, sobre todo para optimizar los siguientes aspectos:

  • Por factorización y el parámetro de intercambio entre las capas para reducir el número de parámetros del modelo para mejorar el parámetro de eficiencia;
  • Por SOP NSP alternativa, la capacidad de mejorar la continuidad del aprendizaje de frases para mejorar la capacidad de auto-aprendizaje supervisado las tareas;
  • Puede ahorrar mucho mediante la eliminación de deserción variables temporales, el modelo efectivamente mejorar la utilización de la memoria proceso de formación, mejorar la eficiencia del modelo, lo que reduce el tamaño de los datos de entrenamiento.

03 Millas El primer paso: iniciar y mediante el modelo

porque el proyecto actual principal es identificar los chinos, es sobre todo el uso de la versión china ALBERT ALBERT_zh, github proyecto Dirección: .

Recuerdo que antes visto una foto muy interesante, puede ser una buena descripción de mis sentimientos en este momento:

12 a través de la Fig. Paso Modelo Xianpao

Para mí este tipo de "ismos", el modelo de regresión entonces primer paso es siempre el comienzo ya través de ella, como para la optimización de poner fuera. Se ejecuta a través no sólo mejorar la confianza en sí mismo, el efecto más práctico es que podemos poner en práctica rápidamente el proyecto en línea. Porque necesito tarea de clasificación de texto completo, así también por la dirección de arriba para descargar el proyecto de github, en el salto de clúster al siguiente directorio albert_zh, ejecute el comando sh run_classifier_lcqmc.sh puede estar en funcionamiento. Debido a que el proyecto no es una sentencia de tareas de clasificación, sólo es una tarea juicio condena relación similar, por lo que el inicio ya través de esta tarea, entonces esta última de acuerdo con el código de trabajo para el cambio en la línea.

guión run_classifier_lcqmc.sh divide generalmente en dos bloques, la primera pieza es un modelo de funcionamiento trabajos de preparación, el segundo bloque es el ensayos del modelo. Los siguientes son un modelo, que implica la adquisición de datos, el modelo de pre-formado, los parámetros del modelo relacionados con el equipo y similares.

13 modelo se ejecuta Preparaciones

El segundo bloque es el responsable de la ejecución del modelo, sobre todo pitón de comandos para ejecutar el programa y los parámetros relacionados necesarios para configurar.

diagrama 14 modelo


Bajo resumen, el enfoque aquí dijo una tarea relaciones de oraciones juez de cómo manejar un ALBERT_zh éxito en sí proporciona. Esta demo es real y nuestro proyecto chino de esta tarea de clasificación es tareas muy similares, aquí es a través de la transformación de esta secuencia de comandos y la ejecución de código para completar nuestro proyecto de clasificación de texto real.

Más de 04 tareas de clasificación práctica

proyectos de reconstrucción GitHub en la siguiente dirección: .

El tenedor en el plato original del proyecto, y aquí he añadido dos archivos run_classifier_multiclass.sh y run_classifier_multiclass.py. Este es el guión de trabajo y el código para llevar a cabo la clasificación de texto. De hecho, el principio de la transformación es relativamente simple, hay más o menos en la siguiente.

Formato de los datos para determinar las relaciones de tareas frase del proyecto fue proporcionada originalmente: id, text_a, text_b, la etiqueta , la tarea es en realidad para determinar las dos palabras que al final no existe una relación. Las muestras positivas por ejemplo como sigue:

TEXT_A: Jackie respaldo del legendario cuchillo Qué divertido?
text_b: Jackie tenía otras leyendas también hablan?
etiqueta: 1

muestra negativa puede ser la siguiente:
TEXT_A: Jackie respaldo del legendario cuchillo Qué divertido?
text_b: Chengdu, que ve lo más divertido?
etiqueta: 0

Por los dos ejemplos de muestras positivas y negativas anteriores debemos entender cuál es la relación entre una tarea de juicio frase, de hecho, tiene el aprendizaje supervisado de las tareas de clasificación. Hacemos principalmente el proyecto de clasificación texto real del BERT, la identificación de una palabra a la que pertenece la etiqueta correspondiente a las tareas anteriores es en realidad sólo text_a, etiqueta. Debido a que el mismo tipo de tarea, el enfoque de la política consiste en modificar el código por lo que la sección de análisis text_b del código. scripts específicos y modificación del código es decir por encima de dos documentos, hay pocos socios necesidad y búsqueda. Debe tenerse en cuenta que el archivo de datos original es formato TSV, aquí está mi formato csv, la entrada de datos un poco diferente de bits de los otros modelos no se movió.


Resumen del

proyecto las necesidades reales de la línea de la necesidad BERT para hacer más rápido y mejor modelo de formación, por lo que a través de la investigación que utiliza la corriente BERT últimos productos derivados ALBERT. ALBERT a través de parámetros de factorización y compartir entre las capas para reducir el número de parámetros del modelo para mejorar los parámetros de eficiencia; SOP sustitución por NOP, la capacidad de mejorar la continuidad del aprendizaje de frases para mejorar la capacidad de las tareas de aprendizaje auto-supervisado; puede ahorrar mucho mediante la eliminación de deserción variables temporales, el modelo efectivamente mejorar la utilización de la memoria proceso de formación, mejorar la eficiencia del modelo, lo que reduce el tamaño de los datos de entrenamiento. La última frase en el proyecto para determinar la relación entre la tarea transformado en tarea de clasificación de texto de nuestros proyectos reales para las necesidades reales de negocio. Puede decirse que tiene una teoría, ayudar a los pequeños socios entienden por qué ALBERT entrenar más rápido, los resultados fueron buenos. También son prácticos, si necesita hacer para utilizar ALBERT tarea de clasificación de texto directamente con la transformación de mis guiones buenos y el código en funcionamiento en la línea.

Artículos como este tipo de socios pequeños pueden centrarse en mi número público de micro-canales: los datos de la camioneta. Cualquier seca primero voy a ser lanzado en el número de micro-canales públicos, también conocida casi en sincronía, titulares, libros de Jane, plataformas CSDN. Socios pequeños también son bienvenidos más intercambios. Si tiene alguna pregunta, siempre puedo micro carta pública Q en el número de Kazajstán.


Supongo que te gusta

Origin www.cnblogs.com/wilson0068/p/12444111.html
Recomendado
Clasificación