《序列模型》之循环神经网络基础

其他 2018-06-22 05:15:56 阅读次数: 3

RNN model

模型架构

这里写图片描述

BPTT

这里写图片描述

不同类型的RNN

这里写图片描述

梯度爆炸和梯度消失

出现原因

这里写图片描述

解决梯度爆炸

检测

这里写图片描述

梯度裁剪

这里写图片描述

截断BPTT

这里写图片描述

解决梯度消失

很难检测

这里写图片描述

如何解决

LSTM,GRU
ReLU激活函数
循环权重矩阵初始化方法
Skip connections

将权重矩阵分解 $Q^{-1}\Lambda Q$ 的话，其中 $\Lambda$ 是对角线上是特征值的对角矩阵，Q是特征值对应的特征向量组成的矩阵。
那么若干时间步的权重乘积可以表示为 $Q^{-1}\Lambda ^n Q$ ，
由正交矩阵的特征值绝对值等于1的特性，可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。

LSTM and GRU

这里写图片描述

LSTM v0

这里写图片描述

LSTM with forget gate

这里写图片描述

Long Short-term Memory

GRU

这里写图片描述

On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

LSTM 更加灵活
GRU 更少的参数
一般先训练LSTM，然后训练GRU，最后对比并选择

BiRNN and Deep RNN

这里写图片描述

参考资料

《深度学习》deeplearning.ai
Introduction to Deeplearning HEC

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/79249667

《序列模型》之循环神经网络基础

花书+吴恩达深度学习（十五）序列模型之循环神经网络 RNN

序列模型（2）-----循环神经网络RNN

序列模型汇总__循环神经网络（RNN）（一）

序列模型（5）-----双向神经网络（BRNN）和深层循环神经网络（Deep RNN）

循环神经网络模型

文本预处理 & 语言模型 & 循环神经网络基础

循环神经网络基础

循环神经网络模型RNN

算法模型---循环神经网络

循环神经网络-语言模型

什么是循环神经网络模型？

神经网络之循环神经网络及细节分析

Coursera吴恩达《序列模型》课程笔记（1）-- 循环神经网络（RNN）

[DeeplearningAI笔记]序列模型1.3-1.4循环神经网络原理与反向传播公式

MATLAB算法实战应用案例精讲-【序列模型】循环神经网络 RNN

[DeeplearningAI笔记]序列模型1.5-1.6不同类型的循环神经网络/语言模型与序列生成

【神经网络】神经网络加速之量化模型

循环神经网络基础介绍

RNN（循环神经网络）基础篇

循环神经网络（RNN）基础案例

循环神经网络入门基础

深度学习之循环神经网络

PyTorch之循环神经网络

基于循环神经网络（RNN）的神经语言模型

[DeeplearningAI笔记]序列模型1.7-1.9RNN对新序列采样/GRU门控循环神经网络

时空序列预测之PredRNN（用ST-LSTM预测学习的循环神经网络）

【神经网络】之神经网络基础（二）

【神经网络】之神经网络基础（一）

[ DLPytorch ] 文本预处理&语言模型&循环神经网络基础

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)