RNN中梯度消失和爆炸的问题公式推导 - 代码天地

RNN中梯度消失和爆炸的问题公式推导

其他 2018-11-18 16:32:42 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u014046022/article/details/83859183

RNN

首先来看一下经典的RRN的结构图，这里 $x$ 是输入 $W$ 是权重矩阵 (RNN的权重矩阵是共享的所以都是W) $h$ 是隐藏状态 $y$ 是输出
在这里插入图片描述

RNN简单公式定义

$h_t = W*f(h_{t-1}) + W^{(hx)}*x_{[t]}$
$y_{t} = W^{(S)}*f(h_t)$
其中， $h_t$ 表示 t 时刻的隐藏状态 $x_{[t]}$ 表示 t 时刻的输入 $y_t$ 表示 t 时刻的输出。我们记总体的error为 $E$ 那么 $E$ 有如下表达式：
$E = \sum_{t=1}^{T}\frac{\partial E_t}{\partial W}$
总体的误差是所有时刻 t 的误差的累加。那么继续往下展开, 根据链式法则：
$\frac{\partial E_t}{\partial W} = \sum_{k=1}^{t}\frac{\partial E_t}{\partial y_t} \frac{\partial y_t}{\partial h_t}\frac{\partial h_t}{\partial h_k} \frac{\partial h_k}{\partial W}$
继续往下展开有：
$\frac{\partial h_t}{\partial h_k} = \prod_{j=k+1}^{t}\frac{\partial h_j}{\partial h_{j-1}}$
注意到： $h_t = W*f(h_{t-1}) + W^{(hx)}*x_{[t]}$ ，上式的每个偏导其实是一个Jacobian式

在这里插入图片描述

考虑Jacobians的范数，令：
$||\frac{\partial h_j}{\partial h_{j-1}} || \leq ||W^{T}|| *||diag[f'(h_{j-1})]|| \leq \beta_w*\beta_h$
其中， $\beta_w ,\beta_h$ 表示正则化的上界。将上式回代到连乘的式子得：
$||\frac{\partial h_t}{\partial h_k} ||= ||\prod_{j=k+1}^{t}\frac{\partial h_j}{\partial h_{j-1}}|| \leq(\beta_w *\beta_h)^{t-k}$
这里得 t 表示 time-step，也就是序列越长t会越大，即就变成了长期依赖的问题。注意到 $(\beta_w *\beta_h)^{t-k}$ 这项其实与矩阵的W的初始化有关，假设初始化一些非常小的数，W的范数也会变得很小，也就是 $\beta_w$ 会变得比较小，那么随着t的增长，这一指数项会趋近于0而导致梯度消失，相反，如果初始化成为大于1的数，则随着t的增长，会导致梯度爆炸。

猜你喜欢

转载自blog.csdn.net/u014046022/article/details/83859183

RNN中梯度消失和爆炸的问题公式推导

RNN梯度消失和爆炸

RNN 梯度消失和梯度爆炸

梯度消失和梯度爆炸问题详解

梯度消失和爆炸

【深度学习系列】DNN中梯度消失和梯度爆炸的原因推导

梯度消失和梯度爆炸

深度神经网络梯度消失和梯度爆炸问题

RNN - 梯度消失与爆炸

梯度消失和梯度爆炸理解

梯度消失和梯度爆炸的解答

对于梯度消失和梯度爆炸的理解

梯度消失和梯度爆炸情况详解

梯度消失和梯度爆炸（待改进）

深度学习-梯度消失和梯度爆炸

深度学习《梯度消失和梯度爆炸》

梯度下降原理+梯度消失和爆炸

深度学习之梯度消失与爆炸原因公式推导

RNN梯度消失和爆炸及LSTM解决原理的知乎回答

【机器学习】【RNN中的梯度消失与梯度爆炸】

LSTM解决梯度消失和爆炸情况

【深度学习】梯度消失和爆炸

梯度消失和梯度爆炸问题及其解决方法详解

RNN 梯度消失/爆炸问题的解决方法

机器学习中的数学——深度学习优化的挑战：梯度消失和梯度爆炸

梯度消失和梯度爆炸原因及其解决方案

Task05 梯度消失和梯度爆炸

梯度消失和梯度爆炸及其解决方案

有关梯度消失和梯度爆炸的文章

深度学习笔记 3 梯度消失和梯度爆炸

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)