产生消失的梯度问题的原因 - 代码天地

产生消失的梯度问题的原因

其他 2018-07-15 21:30:35 阅读次数: 0

产生消失的梯度问题的原因

先看一个极简单的深度神经网络：每一层都只有一个单一的神经元。如下图：

代价函数C对偏置b₁的偏导数的结果计算如下：

先看一下sigmoid 函数导数的图像：

该导数在σ′(0) = 1/4时达到最高。现在，如果我们使用标准方法来初始化网络中的权重，那么会使用一个均值为0 标准差为1 的高斯分布。因此所有的权重通常会满足|w_j|<1。从而有w_jσ′(z_j) < 1/4。

这其实就是消失的梯度出现的本质原因了。

可以考虑将权重初始化大一点的值，但这可能又会造成激增的梯度问题。

根本的问题其实并非是消失的梯度问题或者激增的梯度问题，而是在前面的层上的梯度是来自后面的层上项的乘积。所以神经网络非常不稳定。唯一可能的情况是以上的连续乘积刚好平衡大约等于1，但是这种几率非常小。

所以只要是sigmoid函数的神经网络都会造成梯度更新的时候极其不稳定，产生梯度消失或者激增问题。

解决梯度消失问题

使用ReLU。

使用ReL 函数时：gradient = 0 (if x < 0), gradient = 1 (x > 0)。不会产生梯度消失问题。、

注：实际上就是梯度计算过程中，w值和激活函数的导数值相乘大于1或者小于1的问题，如果是大于1，那么经历过很多个隐藏层梯度就会越来越大，即梯度爆炸，如果是小于1当然就是梯度消失啦。

猜你喜欢

转载自blog.csdn.net/doulinxi115413/article/details/80878210

产生消失的梯度问题的原因

梯度消失，梯度爆炸产生的原因及解决办法

梯度消失与梯度爆炸问题

RNN梯度消失问题

梯度消失问题

欠拟合、过拟合、梯度爆炸、梯度消失等问题的原因与大概解决方法

深度学习中的梯度消失、梯度爆炸问题的原因以及解决方法

梯度消失和梯度爆炸问题详解

梯度消失和梯度爆炸原因及其解决方案

梯度消失，梯度爆炸＿原因分析＿简单例子助理解

梯度爆炸和梯度消失的原因以及解决方法

梯度消失问题及LSTM代码片段

梯度消失问题与如何选择激活函数

LSTM解决RNN梯度消失问题

梯度消失问题的出现和解决

梯度消失问题探究与解决方案

梯度消失、爆炸原因及其解决方法(转)

梯度消失、爆炸原因及其解决方法

深度学习之梯度消失与爆炸原因公式推导

梯度消失/爆炸：原因，影响，解决方案，误区。

梯度消失

神经网络中梯度消失、梯度爆炸的问题分析

循环神经网络梯度消失/梯度爆炸问题

深度神经网络梯度消失和梯度爆炸问题

梯度消失与梯度爆炸

梯度消失&&梯度爆炸

梯度消失 + 梯度爆炸

梯度爆炸与梯度消失

梯度消失&梯度爆炸

梯度消失，梯度爆炸

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)