参考
长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。
LSTM的基本输入输出
如图所示,不同于普通的RNN,LSTM有两个传递状态,分别为 c t 和 h t c^t和h^t ct和ht,其中c变化缓慢,而h变化可以很大。
z i , z f , z o , z 四 个 状 态 z^i,z^f,z^o,z四个状态 zi,zf,zo,z四个状态
计算方法如上图,这里 x t 和 h t − 1 相 互 拼 接 成 一 个 维 度 更 高 的 向 量 再 同 各 种 W 计 算 x^t和h^{t-1}相互拼接成一个维度更高的向量再同各种W计算 xt和ht−1相互拼接成一个维度更高的向量再同各种W计算
计算
进行如图所示计算