- ¿Cuáles son las ventajas y desventajas de la función sigmoide
- RELU ventajas y desventajas
- ¿Cuál es la entropía cruzada
- No por qué la pérdida problema de clasificación es la función de entropía cruzada es MSE?
- problemas de varios de clasificación, y el uso de softmax sigmoide como la diferencia entre la función de activación última capa
- ¿Por LSTM la función de activación es tanh y sigmoide sin Relu
- retropropagación softmax
¿Cuáles son las ventajas y desventajas de la función sigmoide
ventajas:
- rango de salida de prioridad, la salida se puede asignar a cualquier intervalo dentro del rango de (0, 1) representa la probabilidad de salida de la clasificación binaria puede ser utilizado en la capa de salida
- Facilidad de derivación
desventajas:
- función sigmoide fácilmente saturado, y el gradiente en el intervalo (0, 0,25], en gradiente de retropropagación es susceptible de causar desapareciendo.
RELU ventajas y desventajas
ventaja
- Relu no insaturación de activación puede proporcionar una relativamente amplios límites.
- Sólo gradientes 0, 1 dos variables, resolver eficazmente el problema de la desaparición del gradiente.
- supresión Unilateral relu proporciona la capacidad de expresar una red dispersa.
defecto
- El proceso de formación puede conducir a la muerte neuronal problemas. En el entrenamiento, si un parámetro en una actualización apropiada, una primera capa oculta elemento neural RELU no es para ser activado en todos los datos de entrenamiento. Por lo tanto, este gradiente siempre neurona en sí parámetro es 0, nunca puede ser actualizado después de que el proceso de formación. Este fenómeno se llama la muerte problema RELU (Muriendo RELU Problema)
¿Cuál es la entropía cruzada
- entropía Cross es un retrato de la distancia entre dos distribuciones de probabilidad, describe las diferencias entre pronóstico y la distribución real de la distribución .
- Cross fórmula entropía: \ (H (P, Q) = - \ sum_x P (X) log \ Q (X) \) , en donde, x es la probabilidad de cada categoría de una muestra
No por qué la pérdida problema de clasificación es la función de entropía cruzada es MSE?
Desde el punto de vista de la modelización:
- MSE es una de datos hipotéticos en línea con distribución gaussiana, la distribución de probabilidad condicional de la negativa de probabilidad logarítmica. Se representa la distancia euclidiana entre dos vectores
- CE se supone que el modelo es un perfil de distribución de polinomio, la distribución de probabilidad condicional de la probabilidad log negativo. Representa la verdadera distribución de las diferencias entre predicho y distribución
Desde el punto de vista Gradiente:
- MSE的梯度\ (\ frac {\ partial L} {\ partial \ y_i sombrero} = 2 (\ hat y_i - y_i) \)
- CE的梯度\ (\ frac {\ L parcial} {\ partial \ y_i sombrero} = \ frac {y_i} {\ hat y_i} \)
MSE tiende a cero en la optimización de los residuos secundarios tardíos será muy pequeño, lo que resulta en desaceleración optimizado. El componente de la CE en la optimización de la última categoría es la derecha tiende a 1, en lugar del tipo correcto de componente constante a 0, optimización rápida.
intuitivamente:
- MSE ninguna diferencia estaba preocupado acerca de la diferencia entre lo real y predicho probabilidad de que la probabilidad de todas las categorías.
- CE preocupación es predecir la probabilidad de categorías correctas.
problemas de varios de clasificación, y el uso de softmax sigmoide como la diferencia entre la función de activación última capa
- Cada salida de la función sigmoidea es independiente, que no refleja la correlación entre las muestras.
- El softmax normalizó la producción aumenta medias deben ir acompañados de una salida reducida de la otra, que está más en línea con las normas de la probabilidad, que refleja la relación entre la muestra mutuamente excluyentes.
- Si la muestra se encuentra bajo una pluralidad de muestras, y cada muestra es independiente de la clasificación, se puede utilizar como una función de activación sigmoide para cada salida; las categorías mutuamente excluyentes para la clasificación deben ser empleados como la última función de activación softmax.
¿Por LSTM la función de activación es tanh y sigmoide sin Relu
En el LSTM, función sigmoide como una función de la función de la puerta, en el intervalo de (0, 1), no puede ser reemplazado
propósito Relu es resolver el problema de la desaparición del gradiente, mientras que en LSTM, porque el mecanismo residual en el tiempo, el gradiente desaparece problema se ha reducido en gran medida.
Por otro lado, tanh es posible mapa modelo de salida en el intervalo (-1, 1), más fácil de optimizar
retropropagación softmax
Para los problemas de multi-clasificación, la función de activación capa de salida softmax de una sola capa clasificador de red neuronal sólo considera el parámetro de peso \ (W es \) , utilizando el método de optimización de SGD, muestras de entrada \ (X \) , etiquetada \ (Y \) , en el que la dimensión de la muestra \ (m \) , el número de categoría es \ (n- \) , que la propagación hacia adelante y ecuación de propagación inversa:
- propagación hacia adelante:
- Retropropagación:
entonces
Representado como una matriz como: \ (\ frac {\ partial L} {\ partial} = P Z - Y \)