梯度检验 Gradient check - 代码天地

梯度检验 Gradient check

其他 2019-12-08 12:50:51 阅读次数: 0

在深度学习里面，我们算完了梯度可以对其进行检验求导是否正确

1、参数拼接

在深度网络里面有很多参数，$w^{1}$, $b^{1}$, $w^{2}$, $b^{2}$.... $w^{l}$, $b^{l}$，把他们拼接成一个向量$\theta$。其中l代表第几个隐藏层。

因此J($w^{1}$, $b^{1}$,..., $w^{l}$, $b^{l}$) = J($\theta$)

把$dw^{1}$, $db^{1}$, ..., $dw^{l}$, $db^{l}$ 同样用一个大的向量表示 d$\theta$

J($\theta$)= J($\theta$1, $\theta$2, $\theta$3, $\theta$4, ...)

2、那么如何验证 d$\theta$ 是否是 J的梯度呢？

for each i:

　　d$\theta_{approx}^{i}$=$\frac{J(\theta1, \theta2, ..., \theta[i]+\varepsilon,... ) - J(\theta1, \theta2, ... \theta[i]-\varepsilon) }{2\varepsilon}$

　　　　$\approx d\theta[i]=\frac{\partial J}{\partial \theta}$

检验$\frac{\left \| d\theta_{approx} -d\theta\right \|_{2}}{\left \| d\theta_{approx} \right \|_{2} + \left\|d\theta \right \|_{2}}$

令$\varepsilon=10^{-7}$，如果上式约等于$10^{-7}$ 则梯度的误差很小，如果小于$10^{-5}$次方则可能有问题。

3、检查的点

如果根据第2个检查到计算的梯度是有问题的，如果db相差比较大，但是$dw$相差不大，则问题很可能出现在db。因此需要检查下db的计算方法。对于$dw$反之亦然
先关闭dropout，再打开dropout
先让w，b迭代几轮至比较小的数值

猜你喜欢

转载自www.cnblogs.com/ylxn/p/12005047.html

梯度检验 Gradient check

gradient checking（梯度检验）

机器学习算法的调试 —— 梯度检验（Gradient Checking）

cs231n_2017_gradient_check

梯度下降（Gradient Descent）

梯度下降 — Gradient Descent

梯度下降 Gradient Descent

数值梯度(Numerical Gradient)

Gradient（梯度） of a scalar field

梯度累加(Gradient Accumulation)

The Gradient Descent---梯度下降（Gradient Descent）

ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

梯度下降（Gradient Decent）与随机梯度下降（Stochastic Gradient Decent）

梯度下降（Gradient Descent）小结

梯度爆炸之Gradient Clipping

梯度下降法 Gradient Descent

（二）梯度下降(Gradient Descent)

3、Gradient Descent（梯度下降）

深入梯度下降(Gradient Descent)

梯度下降（Gradient Descent）（三）

梯度下降（Gradient Descent）（二）

梯度下降（Gradient Descent）（一）

梯度下降法(Gradient descent)

梯度下降算法（Gradient Descent)

opencv-图像梯度（gradient）

浅谈Matlab中的梯度（gradient）

梯度下降（gradient descent）原理

梯度提升（Gradient Boosting）算法

Gradient Descent：梯度下降法

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)