Entrevista: ¿Por qué introducir un mecanismo de activación en una red neuronal recurrente?

El mecanismo de activación se introduce para aliviar el problema de dependencia a largo plazo en las redes neuronales recurrentes .

Para revisar, si la predicción y en el momento t depende de la entrada x en el momento tk, cuando el intervalo de tiempo k es relativamente grande, es propenso al problema de la desaparición o explosión del gradiente, entonces es difícil para la red neuronal recurrente para aprender dicha información de entrada a largo plazo. En este caso, cuando el pronóstico actual necesite utilizar información a relativamente largo plazo, habrá problemas de dependencia a largo plazo.

Sin embargo, si almacenamos toda la información ingresada en el pasado para aprender información a muy largo plazo, provocará la saturación de la información almacenada en el estado oculto h y la pérdida de información importante. Con este fin, una mejor solución es introducir un mecanismo de activación para controlar la velocidad de acumulación de información, incluida la adición selectiva de nueva información y el olvido selectivo de información previamente acumulada. Este tipo de red se denomina red neuronal recurrente cerrada (Gated RNN). Las redes neuronales recurrentes basadas en puertas más clásicas incluyen la red de memoria a corto plazo (LSTM) y la red de unidades recurrentes cerradas (GRU).

Entrevista: ¿Por qué introducir un mecanismo de activación en una red neuronal recurrente?

Supongo que te gusta