https://colah.github.io/posts/2015-08-Understanding-LSTMs/

1. 循环神经网络（RNNs)

人们思考问题往往不是从零开始的。就好像你现在阅读这篇文章一样，你对每个词的理解都会依赖于你前面看到的一些词，而不是把你前面看的内容全部抛弃了，忘记了，再去理解这个单词。也就是说，人们的思维总是会有延续性的。

传统的神经网络是做不到这样的延续性（它们没办法保留对前文的理解），这似乎成了它们一个巨大的缺陷。举个例子，在观看影片中，你想办法去对每一帧画面上正在发生的事情做一个分类理解。目前还没有明确的办法利用传统的网络把对影片中前面发生的事件添加进来帮助理解后面的画面。

但是，循环神经网络可以做到。在RNNs的网络中，有一个循环的操作，使得它们能够保留之前学习到的内容。如下图所示：

在上图网络结构中，对于矩形块 A 的那部分，通过输入Xt（t时刻的特征向量），它会输出一个结果（t时刻的特征向量），它会输出一个结果（t时刻的特征向量），它会输出一个结果 Ht（t时刻的状态或者输出）。网络中的循环结构使得某个时刻的状态能够传到下一个时刻。（译者注：因为当前时刻的状态会作为下一时刻输入的一部分）

这些循环的结构让 RNNs 看起来有些难以理解。但是，你稍微想一下就会发现，这似乎和普通的神经网络有不少相似之处呀。我们可以把 RNNs 看成是一个普通的网络做了多次复制后叠加在一起组成的。每一网络会把它的输出传递到下一个网络中。我们可以把 RNNs 在时间步上进行展开，就得到下图这样：

从RNNs链状的结构很容易理解到它是和序列信息相关的。这种结构似乎生来就是为了解决序列相关问题的。而且，它们的的确确非常管用！在最近的几年中，人们利用 RNNs 不可思议地解决了各种各样的问题：语音识别，语言模型，翻译，图像（添加）字幕，等等。关于RNNs在这些方面取得的惊人成功，可以查看 Andrej Karpathy 的博客：http://karpathy.github.io/2015/05/21/rnn-effectiveness/

RNNs 能够取得这样的成功，主要还是 LSTMs 的使用。这是一种比较特殊的 RNNs，而且对于很多任务，它比普通的 RNNs 效果要好很多很多！基本上现在所使用的循环神经网络用的都是LSTM，这也正是本文后面所要解释的网络。

2. 长时期依赖存在的问题

RNN的出现，主要是因为它们能够把以前的信息联系到现在，从而解决现在的问题。比如，利用前面的画面，能够帮助我们理解当前画面的内容。如果 RNN真的可以做到这个，那么它肯定是对我们的任务有帮助的。但是它真的可以做到吗，恐怕还得看实际情况呀！

有时候，我们在处理当前任务的时候，只需要看一下比较近的一些信息。比如在一个语言模型中，我们要通过上文来预测一下个词可能会是什么，那么当我们看到“ the clouds are in the ?”时，不需要更多的信息，我们就能够自然而然的想到下一个词应该是“sky”。在这样的情况下，我们所要预测的内容和相关信息之间的间隔很小，这种情况下RNN就能够利用过去的信息，很容易的实现。

但是，有些情况是需要更多的上下文信息。比如我们要预测“I grew up in France … (此处省略1万字)… I speak ?”这个预测的词应该是Franch，但是我们是要通过很长很长之前提到的信息，才能做出这个正确的预测的呀，普通的 RNN 很难做到这个。

随着预测信息和相关信息间的间隔增大， RNN 很难去把它们关联起来了。

从理论上来讲，通过选择合适的参数，RNNs 确实是可以把这种长时期的依赖关系（“long-term dependencies”）联系起来，并解决这类问题的。但遗憾的是在实际中，RNNs 无法解决这个问题。Hochreiter (1991) [German] 和 Bengio, et al. (1994) 曾经对这个问题进行过深入的研究，发现 RNNs 的确很难解决这个问题。

但是非常幸运，LSTMs 能够帮我们解决这个问题。

3. LSTM 网络

长短期记忆网络（Long Short Term Memory networks） - 通常叫做 “LSTMs” —— 是 RNN 中一个特殊的类型。由Hochreiter & Schmidhuber (1997)提出，广受欢迎，之后也得到了很多人们的改进调整。LSTMs 被广泛地用于解决各类问题，并都取得了非常棒的效果。

明确来说，设计 LSTMs 主要是为了避免前面提到的长时期依赖（long-term dependency ）的问题。它们的本质就是能够记住很长时期内的信息，而且非常轻松就能做到。

所有循环神经网络结构都是由完全相同结构的（神经网络）模块进行复制而成的。在普通的RNNs 中，这个模块结构非常简单，比如仅是一个单一的 tanh 层。如下图所示：

LSTMs也有类似的结构（译者注：唯一的区别就是中间部分）。但是它们不再只是用一个单一的 tanh层，而是用了四个相互作用的层。

别担心，别让这个结构给吓着了，下面根据这个结构，我们把它解剖开，一步一步地来理解它（耐心看下去，你一定可以理解的）。现在，我们先来定义一下用到的符号：

在网络结构图中，每条线都传递着一个向量，从一个节点中输出，然后输入到另一个节点中。粉红色的圆圈表示逐点操作，比如向量相加；黄色的矩形框表示的是一个神经网络层（就是很多个神经节点）；合并的线表示把两条线上所携带的向量进行合并（比如一个带ht，另一个输入为Xt，那么合并后的输出就是{ht && Xt}; 分开的线表示将线上传递的向量复制一份，传给两个地方。

3.1 LSTMs 的核心思想

LSTMs 最关键的地方在于Cell（整个绿色的框就是一个Cell）的状态和结构图上面的那条横穿的水平线。

Cell状态的传输就像一条传送带，向量从整个cell中穿过，只是做了少量的线性操作。这种结构能够很轻松地实现信息从整个Cell中穿过而不做改变。（译者注：这样我们就可以实现了长时期的记忆保留了），最简单的Cell结构如下图所示：

若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做门（gates）的结构来实现的。

门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的。

sigmoid层输出（是一个向量）的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重（或者占比）。比如， 0 表示“不让任何信息通过”， 1 表示“让所有信息通过”。

每个LSTM有三个这样的门结构，来实现保护和控制信息。分别是

“forget gate layer”, 遗忘门；
“input gate layer”，传入门；
“output gate layer”, 输出门；

3.2 逐步理解 LSTM

好了，终于来到最激动的时刻了。

3.2.1 遗忘门

首先是LSTM要决定让那些信息继续通过这个Cell，这是通过一个叫做“forget gate layer ”的sigmoid神经层来实现的。它的输入是h(t-1)和和和 x(t)，输出是一个数值都在[0，1]之间的向量（向量长度和cell的状态 C(t-1)一样），表示让C(t-1) 的各部分信息通过的比重。 0 表示“不让任何信息通过”，1 表示“让所有信息通过”。

回到我们上面提到的语言模型中，我们要根据所有的上文信息来预测下一个词。这种情况下，每个cell的状态中都应该包含了当前主语的性别信息（保留信息），这样接下来我们才能够正确地使用代词。但是当我们又开始描述一个新的主语时，就应该把上文中的主语性别给忘了才对(忘记信息)。

3.2.2 传入门

下一步是决定让多少新的信息加入到cell状态中来。实现这个需要包括两个步骤：首先，一个叫做“input gate layer ”的 sigmoid 层决定哪些信息需要更新i(t)是经过sigmoid层进行转换的状态；一个 tanh 层生成一个向量，也就是备选的用来更新的内容，就是tanh生成的向量。在下一步，我们把这两部分联合起来，对cell的状态进行一个更新。

在我们的语言模型的例子中，我们想把新的主语性别信息添加到cell状态中，来替换掉老的状态信息。

有了上述的结构，我们就能够更新cell状态了，即把C(t-1)$更新为C(t)。从结构图中应该能一目了然，首先我们把旧的状态 C(t-1)和和和f(t) 相乘，把一些不想保留的信息忘掉。然后加上相乘，把一些不想保留的信息忘掉。然后加上相乘，把一些不想保留的信息忘掉。然后加上。这部分信息就是我们要添加的新内容。

3.2.3 输出门

最后，我们需要来决定输出什么值了。这个输出主要是依赖于cell的状态C(t)，但是又不仅仅依赖于C(t)，而是需要经过一个过滤的处理。首先，我们还是使用一个sigmoid层来（计算出）决定，而是需要经过一个过滤的处理。首先，我们还是使用一个 sigmoid 层来（计算出）决定，而是需要经过一个过滤的处理。首先，我们还是使用一个sigmoid层来（计算出）决定C(t)中的哪部分信息会被输出。接着，我们把中的哪部分信息会被输出。接着，我们把中的哪部分信息会被输出。接着，我们把C(t) 通过一个 tanh层（把数值都归到 -1 和 1 之间），然后把 tanh 层的输出和 sigmoid 层计算出来的权重相乘，这样就得到了最后输出的结果。

在语言模型例子中，假设我们的模型刚刚接触了一个代词，接下来可能要输出一个动词，这个输出可能就和代词的信息相关了。比如说，这个动词应该采用单数形式还是复数的形式，那么我们就得把刚学到的和代词相关的信息都加入到cell状态中来，才能够进行正确的预测。

4. LSTM 的变种 GRU

文这部分介绍了LSTM的几个变种，还有这些变形的作用。

下面主要讲一下其中比较著名的变种 GRU（Gated Recurrent Unit ），这是由 Cho, et al. (2014) 提出。在GRU中，如下图所示，只有两个门：重置门（reset gate）和更新门（update gate）。同时在这个结构中，把细胞状态和隐藏状态进行了合并。最后模型比标准的LSTM结构要简单，而且这个结构后来也非常流行。

其中，r(t)表示重置门，z(t) 表示更新门。重置门决定是否将之前的状态忘记。当r(t) 趋于0的时候，前一个时刻的状态信息h(t-1) 会被忘掉，隐藏状态会被重置为当前输入的信息。更新门决定是否要将隐藏状态更新为新的状态h(t)（作用相当于合并了 LSTM 中的遗忘门和传入门）。

和LSTM比较一下：

GRU 少一个门，同时少了细胞状态 C(t)。
在 LSTM 中，通过遗忘门和传入门控制信息的保留和传入；GRU则通过重置门来控制是否要保留原来隐藏状态的信息，但是不再限制当前信息的传入。
在LSTM中，虽然得到了新的细胞状态C(t)，但是还不能直接输出，而是需要经过一个过滤的处理：公式（3）；同样，在 GRU 中, 虽然 (2) 中我们也得到了新的隐藏状态h(t)，但是还不能直接输出，而是通过更新门来控制最后的输出：公式（4）。

最后，感谢原文博主跟其他翻译博主，让我多学了很多知识。@huangyongye @永永夜

简单理解LSTM网络（Understanding LSTM Networks by colah）