【深度学习】RNN中梯度消失的解决方案（LSTM） - 代码天地

【深度学习】RNN中梯度消失的解决方案（LSTM）

其他 2018-06-08 05:08:23 阅读次数: 2

上个博客里阐述了梯度消失的原因，同时梯度消失会造成RNN的长时记忆失效。所以在本博客中，会阐述梯度消失的解决方案：①梯度裁剪（Clipping Gradient）②LSTM（Long Short-Term Memory）。

梯度裁剪（Clipping Gradient）
既然在BP过程中会产生梯度消失（就是偏导无限接近0，导致长时记忆无法更新），那么最简单粗暴的方法，设定阈值，当梯度小于阈值时，更新的梯度为阈值，如下图所示：

优点：简单粗暴
缺点：很难找到满意的阈值
LSTM（Long Short-Term Memory）
一定程度上模仿了长时记忆，相比于梯度裁剪，最大的优点就是，自动学习在什么时候可以将error反向传播，自动控制哪些是需要作为记忆存储在LSTM cell中。一般长时记忆模型包括写入，读取，和忘记三个过程对应到LSTM中就变成了input_gate,output_gate,forget_gate,三个门，范围在0到1之间，相当于对输入输出进行加权的学习，利用大量数据来自动学习加权的参数（即学习了哪些错误可以用BP更新参数），LSTM的示意图如下：

具体的公式表达：

优点：模型自动学习更新参数

猜你喜欢

转载自blog.csdn.net/qq_29340857/article/details/70574528

【深度学习】RNN中梯度消失的解决方案（LSTM）

LSTM解决RNN梯度消失问题

【深度学习】深度学习中RNN梯度消失

实习点滴（9）--LSTM是如何解决RNN中的“梯度消失”

lstm解决梯度消失

深度学习中的梯度消失与梯度爆炸

梯度消失问题探究与解决方案

【机器学习】【RNN中的梯度消失与梯度爆炸】

【深度学习】RNN的梯度消失/爆炸与正交初始化

ElitesAI·动手学深度学习PyTorch版学习笔记-过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

《动手学深度学习》笔记 Task03：过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

梯度爆炸和梯度消失以及解决方案

梯度消失和梯度爆炸原因及其解决方案

梯度消失和梯度爆炸及其解决方案

深度学习--RNN，LSTM

【深度学习】rnn and lstm

如何解决RNN中的梯度消失问题？

RNN梯度消失和爆炸及LSTM解决原理的知乎回答

理解RNN梯度消失和弥散以及LSTM为什么能解决

深度学习中的激活函数与梯度消失

深度学习中梯度消失的理解

深度学习中的梯度消失、梯度爆炸问题的原因以及解决方法

RNN、LSTM介绍以及梯度消失问题讲解

梯度消失/爆炸：原因，影响，解决方案，误区。

LSTM解决梯度消失和爆炸情况

LSTM如何解决梯度消失或爆炸的？

记录LSTM公式、梯度消失现象/解决

深度学习基础：RNN与LSTM

【深度学习】RNN | GRU | LSTM

深度学习总结：RNN，LSTM

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)