RNN 公式及其推导

通过时间反向传播

从 $t=1$ 到 $t=\tau$ 应用如下更新方程:

$a^{(t)} = b + Wh^{(t-1)} + Ux^{(t)}$

$h^{(t)} = tanh(a^{(t)})$

$o^{(t)} = c + Vh^{(t)}$

$\hat y^{(t)} = softmax(o^{(t)})$

设损失函数 $L^{(t)}$ 为给定 $x^{(1)}, ..., x^{(\tau)}$ 后 $y^{(t)}$ 的负对数似然，则:

$L(x,y) = - \sum_{t} log p_{model}( y^{(t)} | \left \{ x^{(1)}, ..., x^{(\tau)} \right \} )$

$= -log \frac{exp( o^{(t)}_{y(t)} )}{\sum_i exp( o^{(t)}_i )}$

$= -log \hat y^{(t)}$

其中 $i$ 为 $o^{(t)}$ 中元素的下标。

计算RNN的梯度

对于时间节点 $t$ ，我们要基于t后面的节点梯度来计算当前的节点梯度。

扫描二维码关注公众号，回复： 56509 查看本文章

$\frac{ \partial L}{\partial L^{(t)} } = 1$

$o^{(t)}$ 是softmax函数的参数，设 $i$ 为 $o^{(t)}$ 中元素的下标。

1. 计算 $o^{(t)}$ 的梯度

对于 $o^{(t)}$ 中的每个元素 $o^{(t)}_i$ :

当 $i \neq y(t)$ 时：

$\frac{ \partial L}{\partial o^{(t)}_i }= -\frac{\sum_i exp( o^{(t)}_i )}{exp( o^{(t)}_{y(t)})} \times-\frac{exp( o^{(t)}_{y(t)})}{ { \left ( \sum_i exp( o^{(t)}_i ) \right ) }^2 }\times exp( o^{(t)}_{i})$

$=\hat y^{(t)}_i$

当 $i = y(t)$ 时：

$\frac{ \partial L}{\partial o^{(t)}_i }= -\frac{\sum_i exp( o^{(t)}_i )}{exp( o^{(t)}_{y(t)})} \times\left ( -\frac{exp( o^{(t)}_{y(t)})}{ { \left ( \sum_i exp( o^{(t)}_i ) \right ) }^2 } \times exp( o^{(t)}_{y(t)}) + \frac{exp( o^{(t)}_{y(t)})}{\sum_i exp( o^{(t)}_i )} \right )$

$=\hat y^{(t)}_i - 1$

2. 计算 $h^{(t)}$ 的梯度

当 $h = \tau$ 的时候，只有 $o^{(\tau)}$ 为后续节点：

$\frac{ \partial L}{\partial h^{(\tau)} }=V^\top \frac{ \partial L}{\partial o^{(\tau)} }$

当 $h \neq \tau$ 的时候， $o^{(t)},h^{(t+1)}$ 为后续节点：

因为： $h^{(t+1)}=tanh(b+Wh^{(t)}+Ux^{(t)})$ ，所以

$\frac{ \partial L}{\partial h^{(t)} }=V^\top \frac{ \partial L}{\partial o^{(t)} }+ \left ( \frac{\partial h^{(t+1)}}{\partial h^{(t)}} \right )^\top\frac{ \partial L}{\partial h^{(t+1)} }$

$=diag(1-(h^{(t+1)})^2)W^\top(\frac{ \partial L}{\partial h^{(t+1)} })$

因为tanh是对每个元素分别应用tanh, 所以这里实际为 $diag(tanh)$ ,
其Jacobian矩阵则为 $diag(1-tanh^2)$ .

3.计算其他参数的梯度

因为参数是共享的，他们依赖于每一步时间t的节点：

$\frac{ \partial L}{\partial c }$
$=\sum_t (\frac{ \partial o^{(t)}}{\partial c })^T \frac{ \partial L}{\partial o^{(t)} }$
$=\sum_t \frac{ \partial L}{\partial o^{(t)} }$

$\frac{ \partial L}{\partial b }$
$=\sum_t (\frac{ \partial h^{(t)}}{\partial b^{(t)}})^T \frac{ \partial L}{\partial h^{(t)}}$
$=\sum_t diag(1-(h^{(t)})^2)\frac{ \partial L}{\partial h^{(t)}}$

$\frac{ \partial L}{\partial V }$
$=\sum_t {h^{(t)}}^\top \frac{ \partial L}{\partial o^{(t)} }$

$\frac{ \partial L}{\partial W }$
$=\sum_t \frac{ \partial L}{\partial h^{(t)} } \frac{ \partial h^{(t)}}{\partial W^{(t)} }$
$=\sum_t diag(1-(h^{(t)})^2) \frac{ \partial L}{\partial h^{(t)} } {h^{(t-1)}}^\top$

$\frac{ \partial L}{\partial U }$
$=\sum_t diag(1-(h^{(t)})^2) \frac{ \partial L}{\partial h^{(t)} } {x^{(t)}}^\top$

通过时间反向传播

计算RNN的梯度

1. 计算 o(t) o ( t ) o^{(t)}的梯度

2. 计算 h(t) h ( t ) h^{(t)}的梯度

3.计算其他参数的梯度

猜你喜欢

1. 计算 $o^{(t)}$ 的梯度

2. 计算 $h^{(t)}$ 的梯度