梯度消失（vanishing gradient）和梯度爆炸（exploding gradient） - 代码天地

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

其他 2019-01-29 11:21:22 阅读次数: 0

转自https://blog.csdn.net/guoyunfei20/article/details/78283043

神经网络中梯度不稳定的根本原因：在于前层上的梯度的计算来自于后层上梯度的乘积（链式法则）。当层数很多时，就容易出现不稳定。下边3个隐含层为例：

其b1的梯度为：

加入激活函数为sigmoid，则其导数如下图：

sigmoid导数σ'的最大值为1/4。同常一个权值w的取值范围为abs(w) < 1，则：|wjσ'(zj)| < 1/4，从而有：

从上式可以得出结论：前层比后层的梯度变化更小，变化更慢，进而引起梯度消失的问题。相反，如果|wjσ'(zj)| > 1时，前层比后层的梯度变化更大，就引起梯度爆炸的问题。实际中，当使用sigmoid作为激活函数时，更普遍的是梯度消失的问题。

在重复一遍，从根本上讲无论是梯度消失还是梯度爆炸，其背后的原因是前层网络的梯度是后层网络的乘积，所以神经网络不稳定。唯一可能的情况是以上连续乘积刚好平衡在1左右，但这种几率很小。

解决梯度消失的方法：

隐含层神经元的激活函数用Relu！

猜你喜欢

转载自www.cnblogs.com/scarecrow-blog/p/10333152.html

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

机器学习：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题

深度学习100问之深入理解Vanishing/Exploding Gradient（梯度消失/爆炸）

whai is gradient vanishing and exploding ?

梯度爆炸之Gradient Clipping

梯度爆炸的解决办法：clip gradient

梯度爆炸的解决方法: clip gradient

Pytorch_RNN_gradient exploring(梯度爆炸)

梯度下降（Gradient Descent）

gradient checking（梯度检验）

梯度下降 — Gradient Descent

梯度下降 Gradient Descent

数值梯度(Numerical Gradient)

梯度检验 Gradient check

Gradient（梯度） of a scalar field

梯度累加(Gradient Accumulation)

The Gradient Descent---梯度下降（Gradient Descent）

梯度提升(Gradient boosting)和GBDT

图像梯度(Image Gradient)概念和求解

ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）

梯度下降（Gradient Decent）与随机梯度下降（Stochastic Gradient Decent）

梯度下降（Gradient Descent）小结

梯度下降法 Gradient Descent

（二）梯度下降(Gradient Descent)

3、Gradient Descent（梯度下降）

深入梯度下降(Gradient Descent)

梯度下降（Gradient Descent）（三）

梯度下降（Gradient Descent）（二）

梯度下降（Gradient Descent）（一）

梯度下降法(Gradient descent)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)