Naive RNN vs LSTM vs GRU、attention基础

其他 2019-05-03 12:44:44 阅读次数: 0

原文地址：https://www.jianshu.com/p/b8653f8b5b2b

一、Recurrent Neural Network

图1.1 Recurrent Neural Network1
图1.2 Recurrent Neural Network2
图1.3 Recurrent Neural Network3

二、Naive RNN

图2.1 Naive RNN1
图2.2 Naive RNN2

Naive RNN更新参数时易出现梯度消失/爆炸的问题。

三、LSTM

图3.1 LSTM1
图3.2 LSTM2

peephole

图3.3 LSTM3

Naive RNN vs LSTM
记忆更新部分的操作，Naive RNN为乘法，LSTM为加法。因此LSTM能记得更久些。
记\(\delta_c^t=\frac{\partial L}{\partial c^t}=\frac{\partial L}{\partial c^{t+1}}\frac{\partial c^{t+1}}{\partial c^t}=\delta_c^{t+1}(z^f+\cdots)\)。当\(z^f=1\)时，即使其他项很小，梯度也能够很好地传达到上一个时刻；当\(z^f=0\)时，上一个时刻的记忆不会影响当前时刻，梯度也不会回传回去。因此，\(z^f\)控制了梯度回传的衰减程度。
能有效地缓解梯度消失/爆炸问题。

图3.4 LSTM4

LSTM设计原因

图3.5 LSTM5

标准形式的LSTM能工作得很好；输入门与遗忘门联动(类似GRU)以及没有peephole也能工作得很好。
输出激活函数、遗忘门对于LSTM的表现很重要。

四、GRU

图4.1 GRU1
图4.2 GRU2

与LSTM相比，GRU可以看做是输入门和遗忘门联动。由4个矩阵乘法变为了3个，参数量更少，降低了过拟合的可能性。

扫描二维码关注公众号，回复： 6103317 查看本文章

五、attention基础

dot
\(S_{ab}=h_a^Th_b\)
general
\(S_{ab}=h_a^T W h_b\)
concat
\(S_{ab}=v^T tanh(W_a h_a+W_b h_b)\)

猜你喜欢

转载自www.cnblogs.com/cherrychenlee/p/10804730.html

Naive RNN vs LSTM vs GRU、attention基础

RNN vs LSTM：序列数据处理的选择

RNN-LSTM-GRU

RNN，LSTM和GRU

RNN、GRU、LSTM

RNN - LSTM - GRU

RNN, LSTM, GRU cells

RNN、LSTM、GRU

RNN、LSTM、GRU笔记

Pytorch：RNN、LSTM、GRU

详解RNN、LSTM、GRU

LSTM、RNN、GRU区别？

RNN、LSTM、GRU基础原理篇

Logistic Regression vs Naive Bayes

RNN、LSTM与GRU学习笔记

RNN & LSTM & GRU 的原理与区别

RNN, LSTM, GRU 公式总结

RNN、LSTM、GRU学习补充

【深度学习】RNN | GRU | LSTM

RNN/LSTM/GRU公式推导

RNN、LSTM、GRU的简单介绍

RNN、LSTM和GRU简介

RNN，GRU，LSTM原理整理

RNN & GRU & LSTM 区别与联系

NLP 3.1 RNN,LSTM,GRU

RNN的优秀变种: LSTM & GRU

RNN、LSTM基础

15_RNN_naive_linear_CNN预测顺序数据10值_scalar_plt.sca_labelpad_curve_Layer Normal_TimeDistributed_LSTM_GRU

深度/机器学习基础知识要点：RNN、LSTM、GRU

[深度学习]理解RNN, GRU, LSTM 网络

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)