深度学习笔记——理论与推导之Neural Network的记忆力（四）

Neural Network with Memory

记忆力的重要性：如进位这个问题，你可以设计如下模型来实现这个记忆力：

如上图所示，左边的神经元是将两个数字相加后，如果大于10则输出1，反之输出0，输出后存在Memory cell里一份，然后将值乘以-10做为红色神经元的输入；右边的神经元则是将输入相加，相加后做为红色神经元的输入，红色神经元则是将左右两个输入相加。如，现在传入的是x1 = 4，x2 = 7，那么左边的绿色神经元会输出1，并存一份到Memory cell中，再将这个1*-10作为红色神经元的输入；右边的绿色神经元会输出一个11；接下来将这两个神经元作为红色神经元的输入，11-10 = 1，所以输出值为1。

RNN
RNN的变形
LSTM（长短时间记忆）

RNN

RNN的简单过程：

换一种表现形式：

这里的网络结构都是相同的，包括参数Wi，Wh，Wo都是相同的。

输出的yi是由x1，x2，…xi决定的。
RNN的Cost：

对于RNN来说，越接近input层的神经元会影响的更小。
RNN的Training：
Training要做的就是调参，这里的参数只有三组Wh，Wo，Wi。由于RNN和时间序列有关，因此我们使用BPTT算法。
RNN的应用场景：
- 语音识别等（如果采用DNN，那么每一帧将会被独立考虑）。
- input和output都是vector sequence with the same length，如：POS Tagging（词性标注）
- Name entity recognition（命名实体识别），即定义什么词是人名，地名，组织等等。如：Harry Potter[people] is a student of Hogwarts[organizations] and lived on Privet Drive[places]
- Information extraction（消息提取），如对话系统。

RNN的变形

Elman Network（最常见的type）与Jordan Network：
因为Jordan Network是将输出传递给下一个神经元，这时候的输出是有标准答案的，因此Jordan Network可能比Elman Network更加实用，但当Jordan Network输出维度很大的时候就得不偿失了。
Deep RNN：
Bidirectional RNN：
这种RNN将input中的左右都看了。

以上都是input和output都是the same length。
多对一的RNN：
- 如：Sentiment Analysis（情感分析）
多对多（输出比较短）：
- 如：Speech Recognition（语音识别）
  
  这时候可以用Connectionist Temporal Classification(CTC)：
多对多（没有限制，即不知道谁长谁短）：
- 如：Machine Translation（机器翻译）
  
  在看完一句句子之后，由于我们知道input，而不知道output的长度，所以我们要如何做停止呢？我们可以增加一个断句符”===”
一对多（Input is one vector，output is a vector sequence）：
- Caption generation（字幕生成）：

长短期记忆（LSTM）

这是一个有4个input，1个output的特殊神经元，有三个门为：Output Gate，Forget Gate和Input Gate。

神经元的计算如下：

假设有两个输入，这里不同颜色的线代表不同的参数，这里比之前多了4倍的参数。
实例：
在下面问题中：
- x2 = 1：表示将x1与memory中的数值求和并且存入memory中。
- x2 = -1：表示重置memory
- x3 = 1：表示输出memory中的值
  
  具体流程如下：

Application on language modeling

Language model（LM）：
Language Model在语音辨识的时候有很大作用，它就是对word sequence出现的几率进行估算。假如今天需要判断一段语音是recognize speech还是wreck a nice beach，那么单单从发音上进行辨识是不行的，还需要从概率上进行辨识，如果P(recognize speech)>P(wreck a nice beach)那么output就是”recognize speech”。
这里写图片描述
传统方法，怎么估测几率呢？
1. 收集一系列的text data作为training data。
2. 然而如果这时候word sequence w1,w2,…,wn没出现在training data中。那么我们应该这么计算P(w1,w2,w3,…,wn) = P(w1|START)P(w2|w1)…P(wn|wn-1)。具体说P(“wreck a nice beach”) = P(wreck|START)P(a|wreck)P(nice|a)P(beach|nice)
3. 那么上述几率要怎么估测呢？比如P(beach|nice) = C(nice beach)/C(nice)。
这里写图片描述
4. 现在做LM中有可能出现的问题：

Training Data中：
- The dog ran…
- The cat jumped…

那么这时候就可能出现以下问题，如果Training data中没有狗跑猫跳那么就会出现：
P(jumped|dog) = 0 / P(ran|cat) = 0
这是因为training data是有限的，所以几率的估测是很不准的，一个比较简单的方法，就是看到几率为0的时候，我们给这个0修改成一个很小的值，这样我们就可以算每一个word sequence的几率，这样可以比直接设0更好，这就叫做language model smoothing：
这里写图片描述
5. NN based LM：
我们有NN如何做LM呢？
P(“wreck a nice beach”) = P(wreck|START)P(a|wreck)P(nice|a)P(beach|nice)我们本来是直接用count，来计算P。但我们现在有一个NN是可以估测next word的。比如说，我们输入一个”wreck”，通过NN，我们得到一个m维的vector，那么针对”a”的dimension输出的值就是P(a|wreck)。
这里写图片描述
为什么用NN而不用count，可以处理smoothing的问题呢？
因为我们收入1-of-N encoding后，类似的word的hidden layer的output是类似的。这样当P(jump|dog) 变大，P(jump|cat)也会变大，即使training data中从来没有出现”…cat jump…”，因为dog和cat是类似的词，而dog后面有接跳，cat后面接跳的可能性就会变大。
这里写图片描述
6. RNN-based LM：

input是1-of-N encoding，output是下一个word出现的几率。

如果我们更详细的来说就是这样的：