lstm y derivación GRU

lstm: Cuando la longitud de los recuerdos, es una nueva mejora de la circulación redes neuronales pueden resolver la larga distancia dependencias RNN no puede manejar.

 

 capa oculta RNN original, sólo un estado, es decir, h, es muy sensible a las entradas de corto plazo. Añadir un estado, es decir, C, para hacer que el estado de conservación a largo plazo, llamado estado celular (estado celular).

 

Expandir como se muestra en la dimensión de tiempo sigue:

 

 En el tiempo t, hay tres LSTM de entrada: el valor de entrada actual de la hora de la red, el valor de salida LSTM tiempo, y un estado de la unidad de temporización; LSTM tiene dos salidas: valor de salida actual de temporización LSTM de la hora actual, y el estado celular. El uso a largo plazo de los controles de interruptor de control de tres estados c:

 

En el algoritmo implementado utilizando la función de puerta de los tres estados:

Una puerta que está totalmente conectada capas, un vector de entrada, vector de salida es un número real entre 0 y 1.

 

 

 control de la puerta Principio: de acuerdo con los elementos multiplicado por el vector que necesitamos para controlar la puerta vector de salida, la salida de la puerta es 0 o 1, 0 0 multiplicado por cualquier representante del vector no se hace pasar, multiplicado por 1 no cambia cualquier vector .

puertas calculados olvidados:

 

 

 puerta olvidada: matriz de peso de la puerta estado unidad de decisión en un tiempo C_T-1 número de reservas a C_T estado actual, Wf se olvida, [ht-1, xt] representa dos variables empalman juntos, bf se olvida puerta término de desplazamiento, una función sigmoide.

 

Calculado puerta de entrada:

 

 Entra por la puerta: determina la entrada x_t red actual la cantidad de tiempo para guardar la unidad C_T estado.

La salida del último estado celular y la entrada de corriente de la corriente de entrada se calcula:

 

 

C_T estado celular actual en el tiempo de cálculo por el estado de la unidad principal C_T-1 se multiplica por el elemento multiplicando Ft. Puerta olvidado, por la unidad de entrada en una puerta C_T I_T estado con la entrada de corriente, añadir el producto de dos y puede ser la memoria y los recuerdos a largo plazo actual se combinan para formar un nuevo estado de la celda. Desde la puerta de control puede ser olvidado mucho, mucho tiempo para guardar la información. Desde la entrada de control de la puerta para evitar contenido irrelevante en la memoria.

El objetivo es aprender 8 conjuntos de parámetros:

 

matriz de peso está formado por corte y empalme de dos matrices. Los errores en el tiempo de propagación es el inverso del término de error en el tiempo t se define:

 

 

 matriz de peso se calcula como sigue:

 

El resumen general del proceso:

de entrada original bucle de corriente son de entrada x_ty la salida de la etapa de frente h_ {t-1}y la etapa de estado C_ {t-1},

x_t, h_ {t-1}Encontró por primera vez la puerta olvidada (olvidar Puerta) :

f_ {t} = sigmoide (W_f [h_ {t-1}, x_t] + b_f)

Después de olvidar función de puerta produce una salida de entre 0 y 1 pie, que representa un estado antes de olvidar cómo mucho C_ {t-1}, cuando piese olvida el representante todo 0, 1 siendo completamente mantenido.

Otro sobre la ruta x_t, h_ {t-1}se reunirá la puerta de entrada (la entrada de la puerta) , entra en la puerta decidirá qué valores de la memoria:

I_T = sigmoide (w_i [h_ {t-1}, x_t] + b + i)

También al mismo tiempo, a través de la sospechosofunción generará un nuevo estatus Connecticut:

C'_t = tanh (W_C [h_ {t-1}, x_t] + b_C)

Esta vez, el C_ {t-1}, pie, Connecticut, esose puede determinar el estado actual del cuerpo del bucle Connecticutde:

C_T = f_t * C_ {t-1} + I_T * C'_t

Con el estado actual, como es natural, se puede ir a la salida de la puerta (puerta de salida) de:

o_t = sigmoide (W_O [h_ {t-1}, x_t] + b_o)

h_t = o_t * tanh (C_T)

A partir de la ecuación anterior, encontramos fácilmente que forma cada puerta es la misma, es a través de sigmoideola función de entrada de corriente funciona x_ty da salida a la vez anterior h_ {t-1}se genera un valor de 0 a 1, con el fin de determinar la cantidad de información.

 

 

Supongo que te gusta

Origin www.cnblogs.com/limingqi/p/12638664.html
Recomendado
Clasificación