LSTM Networks - 代码天地

LSTM Networks

其他 2018-08-16 11:31:16 阅读次数: 0

转自：http://deeplearning.net/tutorial/lstm.html
在传统的递归神经网络中，在梯度反向传播阶段，梯度信号可以被与经常隐藏层的神经元之间的连接相关联的权重矩阵相乘，从而得到大量的时间(如时间步数)。这意味着，转换矩阵中权重的大小对学习过程有很大的影响。
如果这个矩阵中的权重很小(或者，更正式地说，如果权重矩阵的主要特征值小于1.0)，它就会导致一个称为消失梯度的情况，梯度信号变得非常小，学习要么变得非常慢，要么完全停止工作。它还可以使学习数据中长期依赖关系的任务变得更加困难。相反，如果这个矩阵中的权值很大(或者，如果权重矩阵的主特征值大于1.0)，那么它就会导致梯度信号太大，从而导致学习偏离。这通常被称为爆炸梯度。
这些问题是LSTM模型背后的主要动机，它引入了一个称为内存单元的新结构(见下图1)。一个内存单元由四个主要元素组成:一个输入门，一个具有自循环连接的神经元(一个连接)，一个forget gate和一个output gate。自循环连接的权重为1.0，并确保了，除了任何外部干扰外，内存单元的状态可以从一个时间步骤持续到另一个时间。这些gate可以调节存储单元（memory cell）自身与环境之间的相互作用。input gate可以允许传入信号改变memory cell的状态或阻止它。另一方面，input gate可以允许memory cell的状态对其他神经元产生影响或阻止它。最后，forget gate可以调节内存单元的自循环连接，允许单元格在需要时记住或忘记它的前一个状态。
LSTM存储单元
下面的方程式描述了在每一个时间t步骤中如何更新一层存储单元。

x_t is the input to the memory cell layer at time t
W_i, W_f, W_c, W_o, U_i, U_f, U_c, U_o and V_o are weight matrices
b_i, b_f, b_c and b_o are bias vectors

首先，我们计算i_t、输入门、t时刻存储单元状态的候选值:
这里写图片描述
然后计算t时刻激活函数值：

计算存储单元新状态：

我们可以计算出它们的output gates的值：

理解 LSTM 网络：
http://www.jianshu.com/p/9dc9f41f0b29
Keras中文文档—LSTM：
https://keras-cn.readthedocs.io/en/latest/layers/recurrent_layer/#lstm

猜你喜欢

转载自blog.csdn.net/u011799895/article/details/78339364

LSTM Networks

Understanding LSTM Networks

Understanding LSTM Networks 译文

understanding LSTM networks(zhuan)

Understanding LSTM Networks（LSTM的网络结构）

理解 LSTM 网络（Understanding LSTM Networks by colah）

Recurrent Neural Networks, LSTM, GRU

（译）理解 LSTM 网络（Understanding LSTM Networks by colah）

简单理解LSTM网络（Understanding LSTM Networks by colah）

（译）理解LSTM网络 ----Understanding LSTM Networks by colah

理解LSTM神经网络（Understanding LSTM Networks翻译）

理解LSTM网络（Understanding LSTM Networks）原文与翻译

LSTM学习—Long Short Term Memory networks

RNN(Recurrent Neural Networks)和LSTM

How to design DL model(3):Understanding LSTM Networks

理解LSTM网络--Understanding LSTM Networks（翻译一篇colah's blog）

LSTM

【LSTM】

【深度学习之美】第一篇：Understanding LSTM Networks

论文研读《Learning to Monitor Machine Health withConvolutional Bi-Directional LSTM Networks》

【时空序列预测第七篇】Satellite Image Prediction Relying on GAN and LSTM Neural Networks

【时空序列预测第七篇】Satellite Image Prediction Relying on GAN and LSTM Neural Networks

论文翻译：Skeleton Based Human Action Recognition with Global Context-Aware Attention LSTM Networks

论文翻译：Embedding group and obstacle information in LSTM networks for human trajectory prediction in cr

【论文阅读】Group Emotion Recognition in the Wild using Pose Estimation and LSTM Neural Networks

Caffe中实现LSTM网络的思路以及LSTM网络层的接口使用方法。本文描述了论文《Long-term recurrent convolutional networks fo

【先挖坑】循环神经网（RNN）与长短时记忆网LSTM（Long Short Term Memory networks）

（KWS-LSTM）Max-pooling loss training of long short-term memory networks for small-footprint KWS

LSTM以及Conv LSTM

"LSTM的参数解释，LSTM

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)