长短时记忆网络LSTM

因为循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。我们将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。但不幸的一面是，LSTM的结构很复杂，因此，我们再介绍一种LSTM的变体：GRU (Gated Recurrent Unit)。它的结构比LSTM简单，而效果却和LSTM一样好，因此，它正在逐渐流行起来。

原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。那么，假如我们再增加一个状态，即c，让它来保存长期的状态，那么问题不就解决了么？如下图所示：

新增加的状态c，称为单元状态(cell state)。我们把上图按照时间维度展开：

上图仅仅是一个示意图，我们可以看出，在t时刻，LSTM的输入有三个：当前时刻网络的输入值、上一时刻LSTM的输出值、以及上一时刻的单元状态；LSTM的输出有两个：当前时刻LSTM输出值、和当前时刻的单元状态。

LSTM的关键，就是怎样控制长期状态。在这里，LSTM的思路是使用三个控制开关。第一个开关，负责控制继续保存长期状态（也就是说上一时刻状态是否汇入）；第二个开关，负责控制把即时状态输入到长期状态；第三个开关，负责控制是否把长期状态作为当前的LSTM的输出。三个开关的作用如下图所示：

接下来，我们要描述一下，输出和单元状态的具体计算方法。

LSTM前向计算：

门的概念：假设W是该门的权重向量，b是偏置项，则：，是sigmoid函数，那么的值域为0到1之间的实数向量；门的使用，就是用门的输出向量按元素乘以我们需要控制的那个向量。因为门的输出是0到1之间的实数向量，那么，当门输出为0时，任何向量与之相乘都会得到0向量，这就相当于啥都不能通过；输出为1时，任何向量与之相乘都不会有任何改变，这就相当于啥都可以通过；这就是门和开关的对应关系。