lstm和GRU推导 - 代码天地

lstm和GRU推导

其他 2020-04-05 20:01:21 阅读次数: 0

lstm：长短时记忆网络，是一种改进后的循环神经网络，可以解决RNN无法处理的长距离依赖问题。

原始 RNN 的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。再增加一个状态，即c，让它来保存长期的状态，称为单元状态(cell state)。

按照时间维度展开如下所示：

在t时刻，lstm的输入有三个：当前时刻的网络的输入值、上时刻lstm的输出值、以及上一时刻的单元状态；lstm的输出有两个：当前时刻lstm的输出值、和当前时刻的单元状态。使用三个控制开关控制长期状态c：

在算法中利用门实现三个状态的功能：

门就是一个全连接层，输入的是一个向量，输出是一个0到1之间的实数向量。

门控制的原理：用门的输出向量按照元素乘以我们需要控制的那个向量，门的输出不是0就是1,0乘以任何向量都是0代表不通过，1乘以任何向量不会发生改变。

遗忘门的计算方式：

遗忘门：决定了上一时刻的单元状态c_t-1有多少保留到了c_t当前状态，Wf 是遗忘门的权重矩阵，[ht-1,xt]表示将两个变量拼接起来，bf是遗忘门的偏置项，是sigmoid函数。

输入门的计算：

输入门：决定了当前时刻网络的输入x_t有多少保存到单元状态c_t.

根据上一次的输出和本次输入计算当前输入的单元状态：

当前时刻的单元状态c_t的计算由上一次的单元状态c_t-1乘以按元素乘以遗忘门ft，在用当前输入的单元状态c_t乘以输入门i_t，将两个积加和，可以将长期记忆和当前记忆结合起来形成新的单元状态。由于遗忘门的控制可以保存很久很久的信息。由于输入门的控制可以避免无关紧要的内容进入记忆。

目标是要学习8组参数：

权重矩阵是由两个矩阵拼接而成的。误差项是沿时间的反向传播，定义t时刻的误差项：

权重矩阵计算公式如下：

总体流程总结：

原始输入循环体的是当前输入 $x_t$ 和上前一步的输出 $h_{t-1}$ ，以及上一步的状态 $C_{t-1}$ ,

$x_t$ ， $h_{t-1}$ 先遇到遗忘门（forget gate）：

$f_{t}=sigmoid(W_f[h_{t-1},x_t]+b_f)$

经过遗忘门的函数之后产生一个0到1之间的输出 $f_t$ ,代表遗忘多少之前的状态 $C_{t-1}$ ,当 $f_t$ 为0时代表全部遗忘，1代表完全保持。

另外一条路线上， $x_t$ ， $h_{t-1}$ 又会遇见输入门(input gate)，输入门会决定记忆哪些值：

$i_t=sigmoid(W_i[h_{t-1},x_t]+b+i)$

另外同时经过 $tanh$ 函数会产生一个新的状态 $C'_t$ ：

$C'_t=tanh(W_C[h_{t-1},x_t]+b_C)$

这个时候，由 $C_{t-1}$ , $f_t$ , $C'_t$ , $i_t$ 就可以决定循环体的当前状态 $C_t$ 了:

$C_t=f_t*C_{t-1}+i_t*C'_t$

有了当前的状态，自然就可以去输出门（output gate）了：

$o_t=sigmoid(W_o[h_{t-1},x_t]+b_o)$

$h_t=o_t*tanh(C_t)$

从上面的公式，我们容易发现，每个门的形态是一样的，都是通过 $sigmoid$ 函数作用于当前的输入 $x_t$ 和前一时刻的输出 $h_{t-1}$ 产生一个0到1的数值，以此来决定通过多少信息。

猜你喜欢

转载自www.cnblogs.com/limingqi/p/12638664.html

lstm和GRU推导

vanilla RNNs和LSTM和GRU公式推导相关

RNN/LSTM/GRU公式推导

LSTM和GRU

LSTM和GRU的区别

RNN，LSTM和GRU

LSTM和GRU介绍

图解LSTM和GRU

LSTM 和GRU的区别

GRU和LSTM比较

重温LSTM和GRU

RNN、LSTM和GRU简介

算法强化 —— GRU和LSTM

Python进行GRU和LSTM

GRU和LSTM结构对比

GRU与LSTM

LSTM与GRU

LSTM & GRU

GRU and LSTM

LSTM 与 GRU

LSTM和GRU网络的介绍和区别

理解RNN、LSTM、GRU和Gradient Vanishing

RNN和LSTM、GRU的简单理解

LSTM和GRU网络的高级运用实例

深度学习 NLP -- LSTM和GRU

TensorFlow2教程-LSTM和GRU

LSTM和GRU结构及原理介绍

循环神经网络-GRU和LSTM

RNN,GRU和LSTM模型比较

深度学习《LSTM和GRU模型》

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)