引言

本文是接上一篇李宏毅机器学习——循环神经网络(一)

Learning Target

在RNN中如何定义损失函数呢。还是以Slot Filling为例，给定一些句子作为训练数据
在这里插入图片描述
并且要给这些句子一些标签，告诉机器第一单词arrive属于other这个slot，Taipei属于dest这个slot等。

此时要怎么定义损失函数呢，比如把arrive丢到RNN中后，可以得到一个输出 $y^1$ ，接下来这个 $y^1$ 要和参考向量计算交叉熵。

在这里插入图片描述
再把Taipei丢到RNN中取希望得到的 $y^2$ 与这个参考向量计算交叉熵，越小越好。这里注意是有顺序的，在把Taipei丢进去之前，一定要先丢arrive。

Learing(训练)

现在有了损失函数后，如果做训练呢，还是用梯度下降。

在这里插入图片描述
还是计算 $L$ 对 $w$ 的偏微分，用梯度下降的方法更新参数。在NN中我们用反向传播算法来更新参数，而在RNN中，需要使用反向传播算法的升级版——基于时间的反向传播算法(BPTT)。这里不细讲BPTT了。

不幸的是，RNN的训练是比较困难的。

在这里插入图片描述
一般来说，在做训练的时候，希望学习曲线是蓝色的这条线。但是在训练RNN的时候，可能会看到绿色的这条线。

在这里插入图片描述
为什么会这样呢，因为误差曲面要么非常陡峭，要么非常平缓。平缓的时候学习的非常慢，此时你尝试增大学习率，结果又遇到了陡峭的曲面，然后整个损失会急剧上升。

那么怎么办呢，RNN的提出者就想了一招，叫Clipping(修建)，当梯度大于某个阈值的时候，就把梯度取那个阈值，通常阈值取15。

那为什么误差曲面是这样呢。

扫描二维码关注公众号，回复： 11163577 查看本文章

在这里插入图片描述
这里以一个简单的RNN为例，它只有一个线性的神经元。假设这个网络的输入是 $\{1,0,0,0\}$ 。那么在第1000个时间点的输出就是 $w^{999}$ 。

然后我们尝试改变 $w$ 的值，变动 $0.01$ ，如果我们增大 $0.01$ ，那么最终会得到的输出是20000(这时可能需要一个很小的学习率)，也就是20000倍！反之如果减少，最终得到的值为 $0$ (此时又需要很大的学习率)。

因为从内存接到神经元的那一组权重是反复被使用的（比如这里被使用了1000次）， $w$ 造成的变换一旦有影响，那么影响是巨大的。

那有什么样的技巧可以帮助我们解决这个问题呢，现在常用的就是LSTM。它能让你的误差曲面不那么崎岖，能解决梯度消失的问题，但是不能解决梯度爆炸的问题。

所以你可以把学习率设得小一点。
这也是为什么常用LSTM而不是RNN的原因。

为什么LSTM能处理梯度消失的问题呢，RNN和LSTM在处理内存的方式是不一样的。在RNN中，每个时间点，内存中的数据都会被覆盖掉。

但在LSTM中是把原来内存中的值乘上一个值，再加上输入的值，最后再覆盖。

如果权重可以影响到内存中的值，一旦发生影响，那么这个影响会一直存在（除非被遗忘门忘掉），不像RNN在每个时间点会被覆盖掉。

现在比较流行的一种RNN是GRU(Gated Recurrent Unit)，它比LSTM要简单，只有两个门，更新门和重置门。所以它需要的参数量比较少，也就是模型更新简单，不容易过拟合。

在这里插入图片描述
GRU需要把存在内存中的值洗掉，才可以存入新的值。

Seq2Seq Auto-encoder

文本

我们之前讲过把一个文档表示成向量的话，往往会用词袋法，但是这种方法会忽略掉单词之前的顺序信息。

在这里插入图片描述
比如上面两句话white blood cells destroying an infection(白细胞杀死细菌)，和an infection destroying white blood cells(细菌杀死白细胞)。它们里面的词汇是一样的，但是因为顺序不同，表示的意思完全相反。

如果我们用Seq2Seq Auto-encoder这种做法，来考虑序列顺序的情况下，把一个文档变成一个向量。
在这里插入图片描述

Li, Jiwei, Minh-Thang Luong, and Dan Jurafsky. “A hierarchical neural autoencoder for paragraphs and documents.” arXiv preprint arXiv:1506.01057(2015).

输入一个单词序列“Mary was hungy.she didn’t find any food”，通过一个RNN把它变成一个词嵌入向量，再把这个词嵌入向量当做Decode的输入，然后让这个Decode输出一模一样的句子(倒序)。

那编码的向量代表这个输入序列的重要信息，我们就可以通过这个Encoded 向量来让这个Decode把这个序列解码回来。

语音

Seq2Seq auto-encoder还可以用在语音上。
在这里插入图片描述
可以给变长的语音序列降维，将一段声音讯号变成固定长度的向量。
比如不同的描述dog的语音经过降维变成向量后，它们分布的距离是比较接近的。

Yu-An Chung, Chao-Chung Wu, Chia-Hao Shen,
Hung-Yi Lee, Lin-Shan Lee, Audio Word2Vec: Unsupervised Learning of Audio Segment Representations using Sequence-to-sequence Autoencoder, Interspeech 2016

那这种技术有什么用呢，还是有很多用的，比如可以用来进行语音搜索。

在这里插入图片描述
那么要怎么做呢，先把输入的声音讯号变成一段一段的，然后用上面介绍的技术把它们变成向量。

然后来一个人，讲一段语音，也把它变成向量，接下来计算这个向量与库里面向量的相似度，就可以得到搜索结果了。