梯度爆炸之Gradient Clipping - 代码天地

梯度爆炸之Gradient Clipping

其他 2018-07-12 11:17:38 阅读次数: 0

随着神经网络层数的增多，会出现梯度消失或梯度爆炸问题。原因可以参考之前写过的文章。

针对梯度爆炸问题，解决方案是引入Gradient Clipping(梯度裁剪)。通过Gradient Clipping，将梯度约束在一个范围内，这样不会使得梯度过大。

在tensorflow 文档中，可以看到Gradient Clipping板块有五个函数。这里，我们仅仅介绍其中两个：tf.clip_by_norm(t,clip_norm,name=None)和tf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)

tf.clip_by_norm(t,clip_norm,name=None)
参数说明： t: a tensor ; clip_norm: 阈值，即maximum L2-norm。
如果 tensor的L2-norm大于clip_norm，则 t = t * clip_norm / l2norm(t)
否则t = t
tf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)
参数说明： t_list: multiple tensors; clip_norm: a clipping ratio; use_norm: 如果你已经计算出global_norm，你可以在use_norm进行指定。

t_list[i] = t_list[i] * clip_norm / max(global_norm,clip_norm)
where 
global_norm = sqrt(sum(l2norm(t)**2 for t in t_list))

Any of the entries of t_list that are of type None are ignored.
This is the correct way to perform gradient clipping (for example, see R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training Recurrent Neural Networks”. http://arxiv.org/abs/1211.5063)

通过介绍这两个函数，可以意识到tf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)更慢一些，因为它需要等所有的梯度都求出来才可以进行梯度截断。

猜你喜欢

转载自blog.csdn.net/yqmind/article/details/80955838

梯度爆炸之Gradient Clipping

pytorch Gradient Clipping

tensorflow Optimizer.minimize()和gradient clipping

pytorch梯度裁剪（Clipping Gradient）：torch.nn.utils.clip_grad_norm

Primitive Assembly, Clipping, and Rasterization

Triangulation by Ear Clipping

Ear Clipping算法简介

Wasserstein GAN最新进展：从weight clipping到gradient penalty，更加先进的Lipschitz限制手法

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

Cesium源码剖析---Clipping Plane

裁切平面（clipping plane）

梯度爆炸的解决办法：clip gradient

梯度爆炸的解决方法: clip gradient

Pytorch_RNN_gradient exploring(梯度爆炸)

深度学习100问之深入理解Vanishing/Exploding Gradient（梯度消失/爆炸）

Temporal Generative Adversarial Nets with Singular Value Clipping

e578. Setting the Clipping Area with a Shape

VTK Clipping 体绘制裁剪

机器学习：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题

PX4固件报错“Accel 0 clipping, not safe to fly!“

梯度爆炸

深度学习之如何防止梯度爆炸/梯度消失?

深度学习之详解梯度爆炸和梯度消失

动手深度学习之# 梯度消失、梯度爆炸

面试之深度学习中的梯度下降和梯度爆炸

梯度爆炸的解决方法幸运28源码下载: clip gradient

梯度消失与梯度爆炸

梯度消失&&梯度爆炸

梯度消失 + 梯度爆炸

梯度爆炸与梯度消失

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)