【深度学习】深度学习中RNN梯度消失

RNN梯度消失理解

深度学习与RNN模型

**深度学习主要思想为统计不变性(最主要的是权重共享,大大降低神经网络中的向量维数,一定程度上可以避免过拟合同时也能降低计算量),表现在空间上权重共享上体现为CNN(Convolutional Neural Network),时间上权重共享体现为RNN(Recurrent Neural Networks)。
RNN前向传播:
处理序列数据,如下图:
这里写图片描述
该图为unrolling状态的RNN,将每个时刻的输入输出以及互相的影响更为直观的体现出来,上一时刻的隐藏层输出会对下一时刻的隐藏层产生影响,公式体现为:
这里写图片描述
RNN反向传播(BP)更新参数:
假定目前在t时刻,需要更新至t=1时刻之间的参数,定义L为损失函数,公式如下:
这里写图片描述

若theta初始化为小于1的数,假如前向传播了上万次,那么在反向传播更新t=1时的参数时,导致求得的偏导极小,接近于0(小于1的数连续相乘),从而导致了所谓的梯度消失现象。
梯度消失会使RNN的长时记忆失效,因为无法更新参数,关于梯度消失的解决方案,下个博客再续!

猜你喜欢

转载自blog.csdn.net/qq_29340857/article/details/70556307