【机器学习】【RNN中的梯度消失与梯度爆炸】 - 代码天地

【机器学习】【RNN中的梯度消失与梯度爆炸】

其他 2018-08-27 22:11:28 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/mystery_guest/article/details/81611598

学习speech synthesis的Tacotron模型，而Tacotron是基于seq2seq attention，RNN中的一类。所以得先学习RNN，以及RNN的变种LSTM和GRU。

RNN的详细我这里不再介绍了，许多神犇的博客及网上免费的课程讲得都很详细。这里仅说明RNN中的梯度消失与梯度爆炸。文章若有错误，烦请大家批评指正。

以经典RNN为例，

假设我们的时间序列只有三段，S0为给定值，则RNN的前向传播过程：

S1=tanh(Wx*X1+Ws*S0+b1)，O1=Wy*S1+b2，y1=g(O1)=g(Wy*S1+b2)

S2=tanh(Wx*X2+Ws*S1+b1)，O2=Wy*S2+b2，y2=g(O2)=g(Wy*S2+b2)

S3=tanh(Wx*X3+Ws*S2+b1)，O3=Wy*S3+b2，y3=g(O3)=g(Wy*S3+b2)

其中Wx为处理输入的参数，Wy为处理输出的参数，Ws为处理前一个时间序列的参数。

假设损失函数为L=1/2*(Y-y)^2，即在t=3时刻，损失函数为L3=1/2*(Y3-y3)^2

对于每一次训练，损失函数为L=∑(t=0,T)Lt，即每一时刻损失值的累加。

我们训练RNN的目的就是不断调整参数，即Wx、Ws、Wy和b1，b2，使得它们让L尽可能达到最小。

假设我们的三段时间序列为t1，t2，t3。

我们考虑t3时刻，对t3时刻的Wx、Ws、Wy求偏导：

可以看出，时间序列对Wy没有长期依赖，而对Wx和Ws的偏导会随着时间序列的增加，中间的求积过程就会不断增加。

因此，根据上面的求偏导公式，可以得到任意时刻对Wx的求偏导公式：

任意时刻对Ws的的求偏导公式和上面类似。

而其中，Sj对Sj-1的偏导数，就是

激活函数tanh和它的导数图像如下：（引用自zhihu）

可以看出，激活函数tanh的导数是小于等于1的，训练的过程中大部分情况下也小于1，因为很少出现WxXj+WsSj-1+b1=0的情况。如果Ws是一个大于0小于1的值，那么当t很大时，就会无穷小，即趋于0；当Ws很大时，则会趋于无穷。

因此，梯度消失和梯度爆炸的根本原因就是这一坨连乘，我们要尽量去掉这一坨连乘，一种办法就是使另一种办法就是使其实这就是LSTM做的事情。

猜你喜欢

转载自blog.csdn.net/mystery_guest/article/details/81611598

【机器学习】【RNN中的梯度消失与梯度爆炸】

RNN - 梯度消失与爆炸

深度学习中的梯度消失与梯度爆炸

RNN梯度消失和爆炸

RNN 梯度消失和梯度爆炸

机器学习中的数学——深度学习优化的挑战：梯度消失和梯度爆炸

RNN中梯度消失和爆炸的问题公式推导

【深度学习】RNN的梯度消失/爆炸与正交初始化

【机器学习中的基础知识】梯度消失与梯度爆炸问题

梯度消失与梯度爆炸

梯度消失&&梯度爆炸

梯度消失 + 梯度爆炸

梯度爆炸与梯度消失

梯度消失&梯度爆炸

梯度消失，梯度爆炸

梯度消失或梯度爆炸

梯度消失、梯度爆炸

梯度消失梯度爆炸

[深度学习] 梯度消失与梯度爆炸

深度学习-梯度爆炸和梯度消失

【深度学习】：梯度消失与梯度爆炸

深度学习-梯度消失和梯度爆炸

深度学习梯度爆炸与梯度消失

深度学习《梯度消失和梯度爆炸》

学习笔记：梯度爆炸和梯度消失

深度学习——梯度消失、梯度爆炸

【深度学习笔记】梯度消失与梯度爆炸

机器学习中的梯度消失、爆炸原因及其解决方法详解机器学习中的梯度消失、爆炸原因及其解决方法

语言模型、RNN梯度消失/爆炸、RNN网络变种

详解机器学习中的梯度消失、爆炸原因及其解决方法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)