Recurrent Neural Networks

一.The Problem of Long-Term Dependencies

二. LSTM Networks

三. The Core Idea Behind LSTMs

四. Step-by-Step LSTM Walk Through

五. Variants on Long Short Term Memory

六. Conclusion

RNN展开：

RNN的实现很多任务的上限指标都是使用LSTM实现的；

一.The Problem of Long-Term Dependencies

RNN的特点就是在处理当前单元时能够利用到前面的历史信息；

例子1：The clouds are in the sky!

当要预测sky时，上面的句子只需要较短的历史信息就能完成； RNN就足够完成这个预测任务、

例子2：I grew up in France… I speak fluent French

但在例子2中如果要预测French，由于根据较短的历史信息只能知道要填一种语言名称，只有根据较长的历史信息才能发现到French；此时RNN无法完成预测任务，bengio有文章仔细证明过这个问题；

http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf

http://www-dsi.ing.unifi.it/~paolo/ps/tnn-94-gradient.pdf

二. LSTM Networks

lstm是一种特殊的RNN,能够捕捉到长距离的历史信息依赖；

lstm在设计时能记住长时间的信息就是其一个基础特性；

所有的RNN都具有神经网络的重复模块链形式；在标志的 RNN种，此重复模块是一个非常简单的结构，例如单个tanh层；

如下rnn的重复结构：

如下lstm的重复结构：

不是进行一个简单tanh的重复，重复的模块包含四个部分

三. The Core Idea Behind LSTMs

lstm关键的cell state，贯穿图的顶部；整个过程只有线性作用，信息不加改变的流动非常容易；

lstm确实能够进行信息的删除或添加，通过门机制；如下图：

门机制是通sigmoid层和点乘运算组成，sigmoid是输出（0~1之间的值）过滤信息，lstm有三个门保护和控制cell state信息；如下：

四. Step-by-Step LSTM Walk Through

Forget gate layer(遗忘门)

LSTM的第一步是确定要从单元状态中丢弃的信息。

它查看ht-1和xt，并在cell state Ct-1中为每个数值输出0-1之间的数字； 1表示保留，0表示完全丢弃；如下图:

LSTM下一个步骤是决定哪些信息将存储进cell state；包含2部分，第一部分是“input gate layer”决定哪些信息将会更新；第二部分是一个tanh层创造一个将加入cell state的新候选向量C't；接下来就是将这个候选向量通过输入更新门后的信息加入到cell state中；如下图：