Lectura en papel | Atención adaptativa en transformadores

Dirección de tesis: https://arxiv.org/abs/1905.07799?context=cs.LG

 

Problemas de investigación:

En comparación con LSTM, Transformer puede ganar casi todas las tareas de PNL. Pero una cosa, la complejidad temporal de Transformer es O (n ^ 2), porque para cada paso, necesita calcular la información de atención de este paso y todos los contextos anteriores. Pero LSTM es O (n) complejidad.

Esta naturaleza hace que Transformer sea difícil de expandir en longitud de secuencia, básicamente 1k tokens es el límite superior. Sin embargo, para los modelos de lenguaje a nivel de caracteres, la entrada de miles de tokens también es relativamente común.

 

El trabajo y la innovación de este artículo:

El documento propone un método de ancho adaptativo que expande significativamente el tamaño máximo de contexto utilizado en el transformador. En este método, la secuencia de entrada se puede expandir a más de 8000 tokens, sin comprometer el rendimiento o aumentar la sobrecarga de memoria o computación.

 

Métodos de investigación:

Motivación :

El método proviene de la observación de diferentes cabezales: en Transformer ordinario, diferentes cabezas aprenderán diferentes partes y sus anchos son diferentes, como se muestra en la siguiente figura:

 

 

 

 

headA está preocupado por los últimos 20, y el peso de los próximos 80 es muy bajo. HeadB está preocupado por todos los tokens.

Por lo tanto, si hay un método que nos permite omitir automáticamente el cálculo irrelevante de headA, entonces podemos reducir en gran medida la cantidad de cálculo.

Realización:

Su implementación utiliza una función de máscara, la fórmula y la imagen se muestran a continuación:

 

 

 

 

 

 

 

 

Al calcular el peso de la atención, la distancia entre el contexto y la posición actual se utiliza como entrada de la función de máscara. En el proceso de aprendizaje, z es un parámetro que necesita ser aprendido, y z es diferente para cada cabeza. El cálculo del peso de la atención es el siguiente:

 

 

 

 

Agregue una penalización L1 a z en la función de pérdida

 

 

 

 

Como extensión, también podemos aprender z en una red, lo que significa que z es una salida basada en la entrada actual. Este método se llama ancho dinámico.

 

 

 

 

Parte experimental:

Sobre la comparación previa de resultados, parámetros y cálculos:

 

 

 

Se puede ver que, en comparación con el transformador ordinario, la cantidad de parámetros no se ha reducido en gran medida, pero la cantidad de cálculo se reducirá en tres o cuatro órdenes de magnitud.

 

Evaluación:

Hay muchas modificaciones al modelo de transformador, este artículo es uno de ellos. A través de la observación, se descubre que la mayor parte de la atención de la capa / cabeza se localiza y se optimiza la red. El costo computacional relativamente bajo se utiliza para modelar el contexto de largo alcance. El efecto en el modelo de lenguaje a nivel de caracteres es significativamente mejor que el transformador-xl, pero el método adaptativo generalmente requiere Sensible a los parámetros, el rendimiento en otras tareas necesita ser verificado.

Supongo que te gusta

Origin www.cnblogs.com/bernieloveslife/p/12734763.html
Recomendado
Clasificación