ilustración RNN
Esta es la estructura de la red, y relacionada con el tiempo, con el fin de mostrar mejor se puede ampliar en el tiempo
Puesto en marcha por el tiempo de formación
LSTM
Referencia: Referencia 1, referencia 2, la referencia 3
¿Por tanh?
Con el fin de superar los desaparece gradiente, necesitamos una segunda derivada de la función se puede mantener durante una larga distancia antes de llegar a cero. tanh es una función adecuado que tiene tal propiedad a.
¿Por qué utilizar sigmoide?
Desde la salida de la función sigmoide puede ser 0 o 1, que puede ser utilizado para determinar olvidar o recordar información.
El efecto de tres puertas:
cuando ft = 0, it = 1, información del historial de estado interno se descarta contiene CT-1, la información de historial se borra, entonces sólo el estado interno del registro de la información en tiempo ct t-1, y también candidato tiene la forma
cuando ft = 1, cuando se 0 =, sólo el estado interno de la información de la historia de copiar ct estado interno previo de CT-1, sin necesidad de escribir la nueva información presentada por el XT.
ecuación puerta olvidada:
donde Wf * [h, x] puede escribirse como las formas siguientes,
puerta de entrada:
el estado de la celda de memoria:
compuertas de salida:
la salida final:
GRÚA
Fórmula:
La puerta de entrada, puerta olvidar, la salida de la puerta se convierte en dos puertas: olvidando puertas y puerta puertas de entrada en una única actualización (Actualizar Gate) y una puerta de restablecimiento (Reset Gate).
El estado de los medios de salida en un solo estado: