05.序列模型 W1.循环序列模型

1. 为什么选择序列模型

有些问题，输入数据 X 和输出数据 Y 都是序列，X 和 Y 有时也会不一样长。在另一些问题里，只有 X 或只有 Y 是序列

为什么不使用标准的神经网络学习上面的 X 到 Y 的映射？

$a^{<t>}=g_{1}\left(W_{a a} a^{<t-1>}+W_{a x} x^{<t>}+b_{a}\right)$

$\hat{y}^{<t>}=g_{2}\left(W_{y a} a^{<t>}+b_{y}\right)$

编程框架通常会自动实现反向传播，但是还是要认识下它的运作机制

$L^{<t>}\left(\hat{y}^{<t>}, y^{<t>}\right)=-y^{<t>} \log \hat{y}^{<t>}-\left(1-y^{<t>}\right) \log \left(1-\hat{y}^{<t>}\right)$

$L(\hat{y}, y)=\sum_{t=1}^{T_{x}} L^{<t>}\left(\hat{y}^{<t>}, y^{<t>}\right)$

最小化损失，通过梯度下降来更新参数

语言模型所做的就是，它会告诉你某个特定的句子它出现的概率是多少

得到一个句子后：

训练一个序列模型之后，要想了解到这个模型学到了什么，一种非正式的方法就是进行一次新序列采样

以上是基于词汇的RNN模型，还可以基于字符

基于字符

优点：不必担心会出现未知的标识
缺点：会得到太多太长的序列，大多数英语句子只有10到20个的单词，但却可能包含很多很多字符。基于字符的模型在捕捉句子中的依赖关系不如基于词汇的语言模型那样可以捕捉长范围的关系，并且基于字符的模型训练成本较高。

自然语言处理的趋势就是，绝大多数都是使用基于词汇的语言模型，但随着计算机性能越来越高，会有更多的应用。
在一些特殊情况下，会开始使用基于字符的模型。除了一些比较专门需要处理大量未知的文本或未知词汇的应用，还有一些要面对很多专有词汇的应用。

反向传播的时候，随着层数的增多，梯度不仅可能指数下降，也可能指数上升。

门控循环单元 GRU，它改变了RNN的隐藏层，使其可以更好地捕捉深层连接，并改善了梯度消失问题

普通的RNN单元结构如下：

$\tilde{c}^{<t>}=\tanh \left(W_{c}\left[c^{<t-1>}, x^{<t>}\right]+b_{c}\right)$

$\Gamma_{u}=\sigma\left(W_{u}\left[c^{<t-1>}, x^{<t>}\right]+b_{u}\right)$

$c^{<t>}=\Gamma_{u} * \tilde{c}^{<t>}+\left(1-\Gamma_{u}\right) * c^{<t-1>}$

GRU单元的优点就是通过门决定是否更新记忆细胞

当你从左到右扫描一个句子的时候，这时是要更新某个记忆细胞，还是不更新，不更新（上图，中间一直为0，表示一直不更新）
直到你真的需要使用记忆细胞的时候，这可能在句子之前就决定了。
因为sigmoid的值，现在门很容易取到0值，只要这个值是一个很大的负数，再由于数值上的四舍五入，上面这些门大体上就是0，或者说非常非常非常接近0。这非常有利于维持细胞的值。因为很接近0，可能是0.000001或者更小，这就不会有梯度消失的问题了。这就是缓解梯度消失问题的关键，因此允许神经网络运行在非常庞大的依赖词上，比如说cat和was单词即使被中间的很多单词分割开

如果门是多维的向量，元素对应的乘积做的就是告诉GRU单元哪个记忆细胞的向量维度在每个时间步要做更新，所以你可以选择保存一些比特不变，而去更新其他的比特。比如说你可能需要一个比特来记忆猫是单数还是复数，其他比特来理解你正在谈论食物，你可以每个时间点只改变一些比特

FULL GRU

$\Gamma_{r}=\sigma\left(W_{r}\left[c^{<t-1>}, x^{<t>}\right]+b_{r}\right)$