Red neuronal: puntos de conocimiento de la capa de función de activación

1. El papel de la función de activación, ¿cuáles son las funciones de activación más utilizadas?

El papel de la función de activación.

La función de activación puede introducir factores no lineales para mejorar la capacidad de expresión de aprendizaje de la red.

Funciones de activación más utilizadas

Función de activación sigmoidea

La función se define como:

f ( x ) = 1 1 + e − xf(x) = \frac{1}{1 + e^{-x}}f ( x )=1+mi−x _1

Como se muestra en la siguiente figura, su rango de valores es (0, 1) (0,1)( 0 ,1 ) . En otras palabras, cada neurona y nodo de entrada se escalará a un valor entre0 00 y1 1valor entre 1 .

cuando xxCuando x es mayor que cero, el resultado de salida se acercará a1 11 , y cuandoxxCuando x es menor que cero, el resultado de salida tiende a0 00. Debido a las características de la función,a menudo se utiliza como función de activación de salida de clasificación binaria.

Derivada de sigmoide:

f ′ ( x ) = ( 1 1 + mi − x ) ′ = 1 1 + mi − x ( 1 − 1 1 + mi − x ) = f ( x ) ( 1 − f ( x ) ) f^{'} (x)=(\frac{1}{1+e^{-x}})^{'}=\frac{1}{1+e^{-x}}\left( 1- \frac{1 }{1+e^{-x}} \right)=f(x)(1-f(x))F' (X)=(1+mi−x _1)=1+mi−x _1( 11+mi−x _1)=f ( x ) ( 1f ( x ))

cuando x = 0 x = 0X=Cuando 0 ,f (x) ′ = 0,25 f(x)'=0,25f ( x )=0,25

Ventajas del sigmoide:

  1. liso
  2. Fácil de derivar
  3. Puede utilizarse como probabilidad para ayudar a explicar los resultados de salida del modelo.

Desventajas del sigmoide:

  1. Cuando los datos de entrada son grandes o pequeños, el gradiente de la función es casi cercano a 0, lo que es muy perjudicial para el aprendizaje de la red neuronal en la retropropagación.
  2. El valor medio de la función sigmoidea no es 0, lo que provoca que solo se produzca retroalimentación totalmente positiva o totalmente negativa durante el proceso de entrenamiento de la red neuronal.
  3. El valor de la derivada es siempre menor que 1 y la propagación hacia atrás puede hacer que el gradiente desaparezca fácilmente.

Diagrama esquemático de la derivada sigmoidea, el gradiente en ambos lados es casi 0

Función de activación de Tanh

La función Tanh se define como:

f ( x ) = T anh ( x ) = ex − e − xex + e − xf(x) = Tanh(x) = \frac{e^x - e^{-x}}{e^x + e^ {-X}}f ( x )=El ( x ) _=miX+mi−x _miXmi−x _

Como se muestra en la siguiente figura, el rango de valores es ( − 1 , 1 ) (-1,1)( -1 , _1 )

Ventajas de Tanh:

  1. La función Tanh comprime los datos en el rango de -1 a 1, resolviendo el problema de que el valor medio de la función sigmoidea no es 0, por lo que en la práctica la función Tanh suele ser más fácil de converger que la función sigmoidea. En forma matemática, Tanh es en realidad solo una forma escalada de Sigmoide. La fórmula es tanh (x) = 2 f (2 x) − 1 tanh(x) = 2f(2x) -1el ( x ) _=2f ( 2x ) _ _1f (x) f(x)f ( x ) es la función de Sigmoide).
  2. liso
  3. Fácil de derivar

Derivado de Tanh:

f ′ ( x ) = ( ex − e − xex + e − x ) ′ = 1 − ( tanh ( x ) ) 2 f^{'}(x)=(\frac{e^x - e^{-x }}{e^x + e^{-x}})^{'}=1-(tanh(x))^2F' (X)=(miX+mi−x _miXmi−x _)=1( el ( x ) ) _2

cuando x = 0 x = 0X=Cuando 0 ,f (x) ′ = 1 f(x)'=1f ( x )=1 .

También se puede ver en las derivadas de Tanh y Sigmoide que la derivada de Tanh es más pronunciada y la velocidad de convergencia es más rápida que la de Sigmoide.

Diagrama de derivada de Tanh

Desventajas de Tanh:

El valor de la derivada es siempre menor que 1 y la propagación hacia atrás puede hacer que el gradiente desaparezca fácilmente.

Función de activación de Relu

La función de activación de Relu se define como:

f ( x ) = máx ( 0 , x ) f(x) = máx(0, x)f ( x )=máximo ( 0 , _X )

Como se muestra en la siguiente figura, el rango de valores es [ 0 , + ∞ ) [0,+∞)[ 0 ,+ )

Ventajas de ReLU:

  1. La fórmula de cálculo es muy simple: no implica operaciones exponenciales más costosas como las dos funciones de activación presentadas anteriormente, lo que ahorra mucho tiempo de cálculo.
  2. En el descenso de gradiente estocástico, es más fácil hacer que la red converja que Sigmoide y Tanh.
  3. Cuando ReLU ingresa a la mitad del área negativa, el gradiente es 0. En este momento, las neuronas se entrenarán para formar una supresión unilateral, lo que resultará en escasez, lo que puede extraer características escasas mejor y más rápido.
  4. Los gradientes de las derivadas de las funciones de activación Sigmoide y Tanh en las zonas de saturación positiva y negativa serán cercanos a 0, lo que hará que el gradiente desaparezca, mientras que la parte de la función ReLU mayor que 0 es una constante para mantener el gradiente. se atenúe y no hará que el gradiente desaparezca.

Escaso : en las redes neuronales, esto significa que la matriz de activación contiene muchos ceros. ¿Qué nos aporta este escaso rendimiento? Esto da como resultado una mayor eficiencia en términos de complejidad temporal y espacial, requiriendo menos espacio para valores constantes y menores costos computacionales.

Derivado de ReLU:

c ( u ) = { 0 , x < 0 1 , x > 0 indefinido , x = 0 c(u)=\begin{cases} 0,x<0 \\ 1,x>0 \\ indefinido,x=0 \end{casos}c ( tu )= 0 ,X<01 ,X>0indefinido , _ _ _ _ _ _ _X=0

Generalmente x = 0 x=0X=0 , dado que su derivada es1 11 y0 00 .

Derivado de ReLU

Desventajas de ReLU:

  1. El entrenamiento puede provocar que algunas neuronas nunca se actualicen. Una de las mejoras a la función ReLU es LeakyReLU.
  2. ReLU no puede evitar el problema de la explosión de gradiente.

Función de activación LeakyReLU

La función de activación de LeakyReLU se define como:

f ( x ) = { ax , x < 0 x , x ≥ 0 f(x) = \left\{ \begin{aligned} ax, \quad x<0 \\ x, \quad x\ge0 \end{aligned } \bien.f ( x )={ una x ,X<0X ,X0

Como se muestra en la siguiente figura ( a = 0,5 a = 0,5a=0.5 ), el rango de valores es( − ∞ , + ∞ ) (-∞,+∞)( ,+ )

Ventajas de LeakyReLU:

La diferencia entre este método y ReLU es que xxCuando x es menor que 0,f (x) = axf(x) = axf ( x )=a x , en el queaaa es una pendiente muy pequeña (digamos 0,01). Estas mejoras pueden hacerxxCuando x es menor que 0, no provocará el fenómeno de desaparición del gradiente durante la retropropagación.

Desventajas de LeakyReLU:

  1. No se puede evitar el problema de la explosión de gradientes.
  2. La red neuronal no aprende α \alphavalor α .
  3. Al derivar la derivada, ambas partes son lineales.

Función de activación SoftPlus

La función de activación de SoftPlus se define como:

f ( x ) = ln ( 1 + ex ) f(x) = ln( 1 + e^x)f ( x )=l norte ( 1+miX )

El rango de valores es ( 0 , + ∞ ) (0,+∞)( 0 ,+ )

La imagen de la función es la siguiente:

SoftPlus puede considerarse como el suavizado de ReLU.

Función de activación ELU

La función de activación ELU resuelve algunos problemas de ReLU conservando algunos aspectos buenos. Esta función de activación requiere seleccionar un α \alphaValor α , su valor común está entre 0,1 y 0,3.

La definición de la función se ve así:

f ( x ) = { a ( ex − 1 ) , x < 0 x , x ≥ 0 f(x) = \left\{ \begin{aligned} a(e^x -1), \quad x<0 \ \ x, \quad x\ge0 \end{aligned} \right.f ( x )={ a ( miX1 ) ,X<0X ,X0

Si ingresamos xxEl valor de x es mayor que0 0.0 , el resultado es el mismo que ReLU, es decir,yyEl valor de y es igual axxvalor x ; pero si la entradaxxEl valor de x es menor que0 0.0 , entonces obtendremos un valor ligeramente menor que0 0El valor de 0 , el resultanteyyEl valor de y depende de la entradaxxvalor de x , pero también tener en cuenta el parámetroα \alphaα : este parámetro se puede ajustar según sea necesario. La fórmula introduce además la operación exponencialexe^xmix , por lo que el costo computacional de ELU es mayor que el de ReLU.

α \alpha se da a continuaciónGráfico de la función ELU cuando el valor α es 0,2:

Gráfico de función ELU

Derivado de ELU:

Fórmula derivada de ELU

La gráfica derivada se ve así:

Gráfico derivado de ELU

Ventajas de ELU:

  1. Puede evitar la situación en la que algunas neuronas en ReLU no se pueden actualizar.
  2. Puede obtener una salida de valor negativo.

Desventajas de ELU:

  1. Contiene operaciones exponenciales y lleva mucho tiempo calcularlas.
  2. No hay forma de evitar el problema de la explosión de gradiente.
  3. La red neuronal no puede aprender α \alphavalor α .

Supongo que te gusta

Origin blog.csdn.net/weixin_51390582/article/details/135124596
Recomendado
Clasificación