[Aprendizaje profundo] Red neuronal recurrente RNN y modelo de aprendizaje profundo LSTM

1. Red neuronal recurrente RNN (red neuronal recurrente)

Un núcleo de la red neuronal recurrente es que puede utilizar los datos de la secuencia anterior para predecir los resultados posteriores. Cómo lograr esto. La estructura RNN se muestra en la siguiente figura.
Insertar descripción de la imagen aquí
Una vez procesada la información de la secuencia anterior, se pasa a la secuencia posterior como información de entrada.

modelo matemático:

$a^1=g_a(W_{h}a^0+W_{i}x^1+b_a)$ ， $y^1=g_y(W_{y}a^0+W_{o}x^1+b_i)$
$a^2=g_a(W_{h}a^1+W_{i}x^2+b_a)$ ， $y^2=g_y(W_{y}a^1+W_{o}x^2+b_i)$
……
$a^t=g_a(W_{h}a^{t-1}+W_{i}x^t+b_a)$ ， $y^t=g_y(W_{y}a^{t-1}+W_{o}x^t+b_i)$

$g$ es la función de activación, $W, b$ es el parámetro de entrenamiento.

2. Diferentes tipos de modelos RNN

Entrada de estructura básica del modelo RNN
Insertar descripción de la imagen aquí
: $x^1,x^2,x^2,...,x^i$ ，输出： $y^1,y^2,y^2,... ,y^i$
Estructura RNN de múltiples entradas a múltiples salidas con las mismas dimensiones.
Aplicación: Identificación de información específica.

Estructura RNN de entrada múltiple y salida única
Insertar descripción de la imagen aquí

Importar: $x^1,x^2,x^2,... ,x^i$ , Salida: $y$
Aplicación: Reconocimiento de emociones

Estructura RNN de entrada única y salida múltiple
Insertar descripción de la imagen aquí

Entrada: $x i$ ，输出： $y^1,y^2,y^2,... ,y^i$
aplicación: generador de datos de secuencia, como generación de artículos, generación de música

Insertar descripción de la imagen aquí
Entrada de estructura RNN de múltiples entradas y múltiples salidas $x^1,x^2,x^2,...,x^i$ ，输出： $y^1,y^2,y^2,... ,y^j$
Aplicación: Traducción de idiomas

Cuando la red neuronal recurrente bidireccional (BRNN)
emite un juicio, también tiene en cuenta la información de la secuencia posterior.

Insertar descripción de la imagen aquí

Las redes neuronales recurrentes profundas (DRNN)
resuelven tareas de secuencia más complejas y se pueden combinar con pilas RNN de una sola capa o conexiones completas antes de la salida.
Insertar descripción de la imagen aquí

Defectos de las estructuras RNN ordinarias.

Primero, cuando la información de la secuencia frontal se transmite hacia atrás, el peso de la información disminuye, lo que resulta en la pérdida de información importante. El gradiente desaparece durante el proceso de solución.
Insertar descripción de la imagen aquí
En segundo lugar, RNN a veces pierde parámetros durante el proceso de entrenamiento.

En el proceso de minimizar la función de pérdida, el gradiente fluctuará repentina y violentamente, lo que provocará la pérdida de parámetros.

Entonces, ¿por qué sucede esto?
Tome la estructura RNN en la figura siguiente como ejemplo, asumiendo $W^i,W^o$ son todos 1 y la longitud de entrada es 1000, entonces $y^{1000}=w^{999}$
Insertar descripción de la imagen aquí

asumimos $El valor inicial de w$ es 1, en¿ Qué sucede cuando $w cambia ligeramente?$
Insertar descripción de la imagen aquí
Entonces el problema con RNN es que durante el proceso de entrenamiento, el mismo $w$ se usa repetidamente en diferentes momentos, $Una vez que w$ tenga un impacto, tendrá un gran impacto.

Red de memoria a corto plazo y larga LSTM (memoria a corto plazo)

El uso de LSTM puede optimizar los defectos de la estructura RNN mencionada anteriormente. $cic^i$ a la unidad estructural RNN ordinaria original $C^{i}$ , puede transmitir información sobre partes distantes del frente.
Insertar descripción de la imagen aquí
La estructura de LSTM consta de tres puertas, cuatro entradas y una salida. Las tres puertas son la puerta de entrada, la puerta de olvido y la puerta de salida. Utilice estas tres puertas para controlar qué información debe olvidarse y descartarse, qué información debe conservarse o mantenerse sin cambios. Las cuatro entradas son, datos de entrada $Z$ , señal de control de puerta de entrada $Z_i$ , olvídate de la señal de control de puerta $Z_f$ y señal de control de puerta de salida $Z_o$ 。
Insertar descripción de la imagen aquí

La puerta aquí puede entenderse como una función de activación, esta función de activación suele ser una función sigmoidea, porque el valor de la función sigmoidea está entre 0 y 1, que se utiliza para controlar el cierre y apertura de la puerta.

Supongamos que el valor original almacenado en la memoria $c$ , el valor actualizado es $c'=g(z)f(z_i)+cf(z_f)$ ， $C^{'}$ es el nuevo valor almacenado en la memoria. De esta fórmula podemos ver que $f(z_i)$ es controlar $¿Se puede ingresar Z$ como nivel? $f(z_i)=0$ significa que no hay entrada, $f(z_i)=1$ tiene entrada. $f(z_f)$ controla si el valor en la memoria se actualizará. $f(z_f)=0$ , olvida que la puerta está abierta y escribe 0 en la celda, $f(z_f)=1$ , pasa directamente y el valor mediano de la celda permanece sin cambios o c. $f(z_o)$ controla si hay un valor de salida.

$Z_i,Z_f,Z_,Z_o$ Todo por La entrada obtenida multiplicando $X por la matriz de peso.$ Ingrese la secuencia como se muestra a continuación.
Insertar descripción de la imagen aquí
LSTM puede resolver el problema de la desaparición del gradiente RNN. Los valores en la memoria RNN se borrarán cada vez, mientras que la memoria en LSTM siempre se superpondrá y solo se borrará a menos que se cierre la puerta.