mecanismo de Atención + funciones de activación relu: parámetros de adaptación de la función de activación RELU

Este artículo revisa algunos de los mecanismos de activación de funciones y tradicionales de atención, una interpretación de la "función de activación bajo el mecanismo de la atención" , es decir, la unidad de corrección paramétrica lineal adaptativo (Unidad de adaptativamente paramétrico lineal rectificador, APReLU) .


1. Active la función

función de activación es el núcleo de una red neural artificial de los componentes, cuya función es no lineal a la red neural artificial. En primer lugar, una revisión de algunos de la función más común de activación, incluyendo la función sigmoide de activación, función de activación Tanh relu y la función de activación, respectivamente, como se muestra en la figura.

Gradiente oscilando función de activación Tanh sigmoide y las funciones de activación son (0,1) y (-1,1). Cuando hay muchas capas, la red neuronal artificial puede experimentar problemas desaparece gradiente. función de activación del gradiente relu es o bien cero o uno, así puede evitar el problema de la desaparición de la explosión de gradiente y gradiente, por lo que en los últimos años ha sido ampliamente utilizado.

Sin embargo, la función de activación relu sigue siendo un inconvenientes. Si en el momento de la formación de redes neuronales artificiales, todas las características de la situación encontrada menor que cero, entonces la función de activación de la salida RELU es todo ceros. Esta vez en el tren falló. Para evitar esto, los investigadores han propuesto una función leaky activación relu, no menos de la función de ajuste a cero a cero es, pero será menor que cero, caracterizado multiplicando un coeficiente pequeño, por ejemplo, 0.1, y 0.01.

En el que gotea RELU, el valor del coeficiente se ajusta manualmente. Sin embargo, el conjunto coeficiente manualmente puede no ser óptima, por lo tanto Ho Kai Ming et al propuso función de activación paramétrico relu (parametrizado función de activación RELU, función de activación PRELU), este coeficiente se establece como un parámetro puede ser entrenado obtenido en la red neuronal artificial junto con el proceso de formación y otros parámetros utilizando el método de descenso de gradiente de la formación. Sin embargo, hay una función característica de activación PRELU: Una vez que se haya completado el proceso de formación, PRELU activar la función del coeficiente se convierte en un valor fijo. En otras palabras, para todas las muestras de ensayo, la función de activación PRELU de los valores de los coeficientes es la misma.

Aquí vamos a introducir probablemente función de activación común varios. ¿Qué hay de malo en ello activar estas funciones? Podemos pensar, si después de una red neuronal artificial usando la función de activación por encima de algunos, o una combinación de estas funciones de activación varios, entonces el entrenamiento de la red neuronal artificial se completa, cuando se aplica a muestras de prueba para todas las muestras de prueba usando la transformación no lineal es el mismo. Es decir, todas las muestras de ensayo se experimentan la misma transformación no lineal. Esta es una manera relativamente inflexible.

Como se muestra a continuación, si gráfico de dispersión de la izquierda representa el espacio de características original a la derecha del diagrama de dispersión representa la red neuronal espacio artificial función de alto nivel obtenido por aprender a gráfico de dispersión de puntos y pequeños cuadrados representan dos tipos de muestras de diferentes categorías, a F, G y H representa una función no lineal. Estas muestras se implementan a continuación para transformar el espacio original función de nivel de espacio de características por la misma función no lineal. En otras palabras, "=" significa que para estas muestras, la transformación no lineal que experimentaron exactamente la misma imagen.

Por lo tanto, podemos de acuerdo a las características de cada muestra ajustar individualmente los parámetros de la función de activación de cada muestra, la experiencia diferente para cada muestra de transformación no lineal de la misma? APReLU función de activación de seguimiento artículo que se introdujo, hacer esto. 


2. Mecanismos atencionales

APReLU referencia función de activación en el presente documento para introducir el clásico Red Squeeze-y-excitación (SENET), mientras que SENET es un algoritmo de red neuronal clásico, de profundidad bajo el mecanismo de atención. Senet funciona como se muestra a continuación:

Aquí para explicar SENET inherente a la idea. Para muchas muestras, el grado de importancia que las diversas características de los canales de higo es probable que sea diferente. Por ejemplo, las características del canal una muestra de una característica muy importante del canal 2 no es importante; las características del canal de la muestra B 1 no es importante, Canal 2 características es importante, por lo que en este momento, para la muestra A, hay que centrarse en las características canal 1 (es decir, característica de canal impartir mayor peso peso 1), por el contrario, para la muestra B, que debe centrarse en el canal característica 2 (es decir, dado un peso más alto del canal derecho 2 Eigen).

Para este propósito, una pequeña SENET totalmente conectado a través de una red, el coeficiente de ponderación obtenido por el aprendizaje de un conjunto de pesos, en el que para cada canal de la figura ponderado originales. De esta manera, cada muestra (incluyendo las muestras de entrenamiento y de prueba) tiene su propio conjunto único de pesos para ponderar el canal en sí varias características. Esto es en realidad un mecanismo de enfoque que tomó nota de las características importantes de la canal, y luego darle un peso más alto.


3. La unidad de corrección paramétrica lineal adaptativo función de activación (APReLU)

función de activación APReLU, en esencia, es la integración de la función de activación SENET y PRELU. En SENET, una red completamente conectada de pequeños pesos obtenidos por el aprendizaje de peso se ponderado para cada características del canal. función de activación APReLU también obtiene ponderando una pequeña red totalmente conectada, y por lo tanto el conjunto de pesos en función de donde PRELU activan los coeficientes, es decir, la porción negativa del peso pesado. La función de activación APReLU principio básico se muestra a continuación en la figura.

Podemos ver que en función de activación APReLU, forma y función de la transformación no lineal es la función de activación PRELU exactamente lo mismo. La única diferencia es que, la función de activación APReLU de los coeficientes de peso en los pesos característica negativa, a través de una pequeña red totalmente conectado aprendizaje obtenido. Cuando se utiliza la función de activación Artificial Neural Network APReLU, cada muestra puede tener su propio factor de ponderación único, es decir, una transformación no lineal único (como se muestra a continuación). Mientras tanto, la característica de entrada y salida características función de activación figuras APReLU la figura tiene el mismo tamaño, lo que significa APReLU puede ser fácilmente integrado en los algoritmos de aprendizaje profundidad existentes.

En resumen, la función de activación APReLU de manera que cada muestra puede tener su propio conjunto único de transformación no lineal, proporciona una forma más flexible de transformación no lineal tiene el potencial de mejorar la precisión de reconocimiento de patrones.

 


referencias

Zhao M, Zhong S, Fu X, et al. redes residuales profundos con rectificador adaptativamente paramétrica lineal unidades para el diagnóstico de fallos [J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109 / TIE.2020.2972458. 

https://ieeexplore.ieee.org/document/8998530/

 

Supongo que te gusta

Origin www.cnblogs.com/uizhi/p/12452760.html
Recomendado
Clasificación