Gradient Vanishing Problem in Deep Learning - 代码天地

Gradient Vanishing Problem in Deep Learning

其他 2018-05-24 08:51:45 阅读次数: 2

在所有依靠Gradient Descent和Backpropagation算法来学习的Neural Network中，普遍都会存在Gradient Vanishing Problem。Backpropagation的运作过程是，根据Cost Function进行反向传播，利用Chain Rule去计算n层之前某一weight上的梯度，从而更新该weight。而事实上，在网络层次较深的情况下，我们获得的weight梯度，随着反向传播层次的深入，会呈现越来越小的状态。从而，在靠近输出端的Layers中，weight可以被很好的更新，因为可以获得不错的gradient，而在靠近输入端的Layers中，weight则更新缓慢。

举个最简单的例子，来说明该问题。如下的神经网络有四层，每层有一个node：

我们可知w是weight，b是bias，每一层的节点输入是z，输出是a，activation function是a=σ(z)，我们可以得出：

当我们已知Cost Function时，我们利用Backpropagation计算weight:

可以看到，第一层的weight梯度，依赖于之后各层activation function的一阶导数之积。而对于Machine Learning中常用的Sigmoid及tanh激励函数，其derivative图像如下：

Sigmoid的derivative是[0,0.25]的，而tanh的derivative是[0,1]的，随着Layers变深，梯度会因为该导数值小于1而迅速衰减。tanh要略好于sigmoid，但依然难以解决Gradient Vanishing的问题。所以Relu Function应运而生，并且在Deep Learning方面取得了巨大成功。Relu的表达式及图形如下：

其当x>0时，derivative是1，小于0时，derivative为0。该函数很好的解决了Gradient Vanishing Problem，在大多数情况下，我们构建Deep Learning时可以使用Relu作为默认的Activation Function。

猜你喜欢

转载自www.cnblogs.com/rhyswang/p/9080888.html

Gradient Vanishing Problem in Deep Learning

whai is gradient vanishing and exploding ?

Deep learning II - I Practical aspects of deep learning - Vanishing/Exploring gradients 梯度消失/爆炸

「Deep Learning」Note on the Shattered Gradients Problem

「Deep Learning」Note on SGDR: Stochastic Gradient Descent with Warm Restarts

【Deep Learning】SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

理解RNN、LSTM、GRU和Gradient Vanishing

Deep learning II - I Practical aspects of deep learning - Gradient checking 梯度检查

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

《DEEP LEARNING AS A MIXED CONVEX COMBINATORIAL OPTIMIZATION PROBLEM》解读

Deep learning II - II Optimization algorithms - Mini-batch gradient descent

Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降

【韩松】Deep Gradient Comression

机器学习：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题

Deep Learning

Deep Learning - Machine Learning

Learning to learn by gradient descent by gradient descent 笔记

吴恩达 deep learning 第二课第一周编程作业 Gradient Checking 3

Deep Deterministic Policy Gradient（DDPG）

Stanford NLP 第五课: RNN Vanishing Gradient Problems Details

cs224n RNN和语言模型（The Vanishing Gradient Issue）

深度学习100问之深入理解Vanishing/Exploding Gradient（梯度消失/爆炸）

Machine Learning:Parameter Learning——Gradient Descent

Machine learning/Deep Learning Resources

What is Machine Learning, Deep Learning and Structured Learning?

Deep learning 1.3 作业

Important persons in deep learning

Deep Learning 1.1

(花书) Deep Learning

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)