循环神经网络梯度消失/梯度爆炸问题

2019-08-27 15:42:00

问题描述:循环神经网路为什么会出现梯度消失或者梯度爆炸的问题,有哪些改进方案。

问题求解:

循环神经网络模型的求解可以采用BPTT(Back Propagation Through Time,基于时间的反向传播)算法实现,BPTT实际上是反向传播算法的简单变种。如果将循环神经网络按照时间展开成T层的前馈神经网络来理解,就和普通的反向传播算法没有什么区别了。循环神经网络的设计初衷之一是能够捕获长距离输入之间的依赖。

从结构上来看,循环神经网络也理应能够做到这一点。然而实践发现,使用BPTT算法学习的循环神经网络并不能成功捕捉到长距离输入之间的依赖关系,这一现象主要源于神经网络中的梯度消失。

猜你喜欢

转载自www.cnblogs.com/TIMHY/p/11418914.html