翻译 LSTM直观解释

原文链接

原文 Understanding LSTM Internal blocks and Intuition

第一部分：LSTM 物理结构 (见原文)

在这里插入图片描述

忘记门

输入门

输出门

内部块、参数（权重偏置）计算

第二部分：

LSTM直觉

然而在LSTM 我们有细胞状态，细胞状态是高速路径、不通过任何全连接网络。因此允许在顺序网络中，梯度自由流动，有助于克服忘记更长的上下文问题，有助于在长间隔上共指解析。

细胞状态Ct是什么

序列数据中一个时间步到下一个时间步的累计信息由细胞状态携带，直到序列结尾。

例如，如果我们正阅读关于世界大战的文章，我们的cell state会充满残酷，痛苦，勇敢等features，而爱、兄弟情谊、和平等features会很低。

在每一个时间步基于当前输入，更新 cell state 。例如在任意上下文，如果输入词是 “爱”，和 “爱”相关的features 在该cell state中将成比例的增加。

LSTM直观理解

我们已经看到了 LSTM结构被拆分成三部分：忘记块、输入块、输出块。我们也会用这个拆分去理解LSTM背后的直觉。

由于图画在本文的第一部分，在这里我将引用这些图，当解释 LSTM每一个部分背后的直觉时。

在进入之前，看下独立部件：

全连接网络

当前输入向量和上一步隐藏状态输出的 concat 作为m+n维度的输入, 转化m+n维度的输入到一个 n维度向量，见图6

Sigmoid

n维向量进入sigmoid，输出还是n维向量，但是输出值在0到1之间（原文是0或1）

Tanh

n维向量进入tanh，输出还是n维向量，但是输出值在-1到1之间

Multiplication and Addition:

如果sigmoid输出向量是 0或1，乘以 cell state，那么所有为0的sigmoid输出将导致 cell state为0；所有为1的sigmoid输出将维持 cell state不变。（图9）

在忘记门，我们乘以全连接层的输出到该 cell state，因为我们必须要忘记 cell state vector 中的部分值。
在输入门，我们加全连接层的输出到该 cell state，因为我们必须加当前输入features 到该 cell state，同时确保我们没有加旧的忘记 feature.

Forget block:

concat 隐状态和当前输入向量(ht-1 + Xt) , 通过一个全链接网络，再通过 sigmoid。输出是 0到1之间，当输出乘以 cell state，乘以 0的 features将被忘记，乘以 1的featrues不会被忘记（译者问：可是没有解释乘以0.5的features啥意思？忘记一半？）。
这就是忘记门如何更新 cell state：使一些features为0 、使其他features保持不变。

在这里插入图片描述

Input block:

输入门有两个并行分支。这两个分支有相同的输入:concat 隐状态和输入向量(ht-1 + Xt)。

分支2（见下图）先全连接网络再 tanh，这会压缩输出值为 -1 到 1 之间。如果该tanh是负的将会减小 cell state，如果是正的将会增强 cell state。为了这个（减小和增强），tanh输出必须要加到该cell state。基于当前输入feature 向量，这个加会增加或减少 cell state中的值。

为了使忘记门说要忘记的那么值不会参与到输入门中，需要下图中的分支1 。输入门需要选择哪些不被忘记的值（分支1 的作用是选择）。（原文这一小段有错误）
在这里插入图片描述

Output block:

现在 cell state 已：通过忘记门获知哪些feature要被忘记、通过输入门取得了输入。
在输出门（图5），将已更新的 cell state 作为选择器； concat 输入隐状态经过全连接网络再经过sigmoid 的输出，让刚的选择器作用于此输出，结果就是下一个时刻的隐状态。