BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

03/13/2020 14:37:47

Casi informes Humanos

Participación: Diablo

El estudio de la Universidad de Wuhan, la Universidad de Aeronáutica y Astronáutica de Beijing y el modelo de compresión de Microsoft Research Asia proporciona una nueva dirección.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

 

Papeles enlace: https: //arxiv.org/pdf/2002.02925.pdf

Este artículo presenta un nuevo método de compresión de modelo puede reemplazar (módulo progresiva sustitución) módulo eficazmente por el BERT compresión gradual. El primer método se divide en una pluralidad de módulos de precursor BERT, y construir un módulo alternativa más compacta, y luego sustituir aleatoriamente el módulo original con un módulo de alternativa, un módulo de formación alternativa para imitar el comportamiento del módulo original. Durante el entrenamiento, los investigadores aumentaron gradualmente la probabilidad de módulos de recambio, a fin de lograr un nivel más profundo de la interacción entre el modelo original y modelo compacto, haciendo que el proceso de formación lleva a cabo sin problemas.

En comparación con el conocimiento previo de los métodos de destilación para la compresión BERT, que con sólo una función de pérdida y una hiper-parámetros, el desarrollador liberado del tedioso proceso de ajuste de parámetros. En el funcionamiento del método sobre el proceso de destilación conocimiento referencia COLA anterior, se abre una nueva dirección de compresión de modelo.

método de compresión Modelo Saber

Con la prevalencia de aprendizaje profundo, nació un montón de gran modelo nervio, y ha hecho que el rendimiento óptimo actual en diversos campos. Especialmente en el campo de procesamiento de lenguaje natural (NLP), pre-entrenamiento y el asistente se ha convertido en la nueva norma en la que la mayoría de las tareas. modelo de pre-entrenamiento basado en el transformador para convertirse en la corriente principal en la comprensión del lenguaje natural (UDE) y el campo Generación de Lenguaje Natural (NLG). Estos modelos de beneficio atributo 'exceso de parametrización", que a menudo contienen millones o incluso miles de parámetros, lo que hace que el modelo de cálculo de dicha cara, y se calcula a partir de la alta latencia y la memoria el punto de vista del consumo es ineficiente. Este defecto ha dificultado en gran medida la aplicación de tales modelos en un entorno de producción.

Para resolver este problema, muchos investigadores han propuesto la tecnología de compresión de redes neuronales. En general, estas técnicas se pueden dividir en tres categorías: la cuantificación, la poda pesos y destilación conocimiento (KD). Lo cual, KD se puede comprimir modelo de lenguaje pre-formados, y por lo tanto ha sido motivo de gran preocupación. KD utilizando los grandes maestros modelo "enseñar" estudiantes modelo compacto para imitar el comportamiento de los profesores, para que los maestros van a migrar modelo de conocimiento incorporado a un modelo más pequeño. Sin embargo, el estado funcional del modelo de estudiante depende de la función de pérdida de destilación bien diseñado, es esta función permite a los estudiantes a imitar el modelo de comportamiento de los profesores. Estudios recientes sobre el uso de la función específica KD modelos aún más complejas pérdida de destilación, con el fin de lograr un mejor rendimiento.

Compresión modelo de compresión de nuevas ideas --Theseus

A diferencia explícitamente por destilación para reducir al mínimo los maestros modelo de función de pérdida y estudiantes de la modelo KD, se propone un nuevo modelo para el método de compresión estudio. Los investigadores se inspiraron famosos experimentos del pensamiento filosófico "barco de Teseo" (si el tablero de madera a ser reemplazado gradualmente, hasta que toda la madera original no es de madera, y que el buque o la nave original, ¿verdad?), Proponga la compresión Teseo para BERT (BERT-de-Teseo), que sustituyó gradualmente el BERT módulo original de parámetros menos del módulo de repuesto. Los investigadores modelo original llamada "tercera edad" (predecesor), y el modelo comprimido llamado "sucesor" (sucesor), que corresponden a los profesores y estudiantes en KD.

El flujo de trabajo del método mostrado en la Figura 1 como sigue: En primer lugar, especifica una alternativa (sucesor) para cada módulo módulo predecesor (es decir predecesor módulo de modelo), y una cierta probabilidad sustitución aleatoria predecesor correspondiente con un módulo alternativo en la fase de entrenamiento módulo, y continuar a entrenar a la manera de una combinación de viejos y nuevos módulos; la convergencia del modelo, la combinación de todos los módulos sucesor modelo sucesor, y luego realizar la inferencia. Esto hace que sea posible comprimir modelo a gran escala de un sucesor para el modelo más antiguo de un compacto.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Figura 1: Flujo de trabajo BERT-de-Teseo.

compresión de Teseo y la idea KD es algo similar, nos alienta modelo comprimido para imitar el comportamiento del modelo original, pero la compresión Teseo tiene muchas ventajas únicas.

En primer lugar, la pérdida de compresión Teseo única tarea específica de la función en el proceso de compresión. Método y Kd a partir de una tarea específica, excepto la función de pérdida, sino también una mayor pérdida de destilación o en función del objetivo de optimización. Teseo método utilizado en todo el proceso de compresión, solamente una pérdida de función, acoplando así las diferentes etapas de la compresión de extremo para completar el formulario. Además, la pérdida de la función de selección de una pluralidad de conjuntos de datos para diferentes tareas y la pérdida y el equilibrio de cada función de peso de peso, a menudo puede ser una tarea que consume tiempo.

En segundo lugar, un estudio reciente [15] diferente, Teseo no utiliza compresión para comprimir Transformador característica particular, que proporciona una amplia gama de posibilidades para el modelo de compresión.

En tercer lugar, solamente con diferente modelo original KD realizar inferencia, el método permite un modelo sucesor del modelo más antiguo con juntos tren de compresión con el fin de lograr un nivel más profundo de fracciones de gradiente de interacción, y simplificar el proceso de formación. Además, la mezcla de diferentes combinaciones de módulos y predecesores módulo módulo sucesor añade término de regularización adicional (Dropout similar). El método también se basa cursos (Curriculum Learning) método de sustitución del módulo de accionamiento, el módulo de probabilidad de reemplazo se incrementa gradualmente de baja a alta, consiguiendo de este modo excelente BERT rendimiento de compresión.

La contribución del estudio son los siguientes:

  • Un nuevo método de compresión de Teseo. Este método usa sólo una función de pérdida y una hiper-parámetros, se proporciona un nuevo modelo para la dirección de compresión.
  • El uso de este modelos de método de compresión obtenida velocidad de operación BERT es 1,94 veces antes, y retiene más del 98% del rendimiento del modelo original, KD base es superior a la otra línea de base compresión.

BERT-de-Teseo

A continuación, mira el reemplazo del módulo del curso y métodos de aprendizaje. métodos de flujo de trabajo BERT-de-Teseo ver fig.

En este ejemplo, el modelo investigador capa P mayor 6 a = {prd_1, .., prd_3} comprimen en capa modelo sucesor S 3 = {scc_1, .., scc_3}. scc_i prd_i y contiene las dos capas y una capa. (A) la sustitución del módulo en la fase de entrenamiento, cada uno con probabilidad p reemplazará el módulo prd_i mayor a la correspondiente scc_i módulo sucesor. (B) un sucesor y el recorte de fase de la inferencia, la combinación de todos los módulos de scc_1..3 sucesor juntos para realizar cálculos.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Figura 2: Gráfico de sustitución constante y módulo de repuesto planificador tasa de reemplazo. La figura muestra dos etapas de compresión Teseo con diferente gris: 1) un módulo de compresión, 2) reemplazado por el recorte.

experimento

Ahora, nos fijamos en Teseo compresión de los resultados del BERT. Los investigadores compararon BERT-de-Teseo y otros métodos de compresión, y por más experimentos para analizar los resultados.

base

Como se muestra en la Tabla 1, el número de capas en comparación investigadores, la cantidad de parámetros, la pérdida de función, y el uso de un modelo de datos externa es independiente del nuevo método y el método convencional.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Tabla 1: Comparación de los diferentes métodos de compresión BERT. "CE" y "MSE" representa la entropía cruzada y la desviación estándar, "KD" representa la destilación de la función de pérdida del conocimiento, "CETASK" y "CEMLM" representan y modelado de lenguaje de sombreado de cómputo en la misión de pre-formación en las tareas anteriores y posteriores son la entropía cruzada. Otra función de pérdida se refiere a los documentos pertinentes.

Los resultados experimentales

La Tabla 2 muestra los resultados de experimentos en el modelo de pegamento conjunto desarrollados. Los investigadores predicen que presentar los resultados a la cola del servidor de prueba, recibido los resultados oficiales, las clasificaciones se muestran en la Tabla 3.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Tabla 2: Los resultados experimentales en los conjuntos de desarrollo pegamento. El número debajo de cada conjunto de datos representa el número de la formación conjunto de datos.

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Tabla 3: Resultados del servidor de pegamento en el equipo de prueba. El número debajo de cada conjunto de datos representa el número de la formación conjunto de datos.

modelo genérico

El autor también proporciona una capa comprimida sobre los pesos del modelo MnlI 6 sucesor, el ajuste fino disponible para uso directo en el pegamento también ha hecho más que el rendimiento DistillBERT. Con la biblioteca de transformadores puede utilizar simplemente tres líneas de código para cargar los pesos modelo:

de los transformadores importar AutoTokenizer, Automodel tokenizer = AutoTokenizer.frompretrained ( "canwenxu / BERT-de-Teseo-MnlI") Modelo = AutoModel.frompretrained ( "canwenxu / BERT-de-Teseo-MnlI")

Después de modelo de compresión, los investigadores afinar el modelo sucesor en las otras tareas de clasificación frase, y en comparación (ver Tabla 4) y el rendimiento de DistillBERT. El modelo general de MRPC para lograr el mismo rendimiento y el desempeño de otras tareas frase nivel significativamente mejor que DistillBERT.

 

BERT sólo una pérdida de la función, un hiper-parámetros se pueden comprimir, SARM mencionar el nuevo método de compresión modelo

 

Tabla 4: Los resultados de este modelo genérico estudio entrenado en la cola-dev.

Publicados 472 artículos originales · ganado elogios 757 · Vistas 1,61 millones +

Supongo que te gusta

Origin blog.csdn.net/weixin_42137700/article/details/104855461
Recomendado
Clasificación