LSTM（长短期记忆）网络的算法介绍及数学推导 - 代码天地

LSTM（长短期记忆）网络的算法介绍及数学推导

企业开发 2023-06-11 21:19:45 阅读次数: 0

文章目录

前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解，但是内容不乏不准确的地方，希望批评指正，共同进步。

本文旨在说明LSTM正向传播及反向传播的算法及数学推导过程，其他内容CSDN上文章很多，不再赘述。因此在看本文前必须掌握以下两点基础知识：

①RNN的架构及算法：RNN作为LSTM的基础，是必须要先掌握的。

夹带私货，推荐自己的文章：基于Numpy构建RNN模块并进行实例应用（附代码）

②LSTM的架构：基于RNN引入上一时刻隐层输出的思想，LSTM又增加了细胞状态 $C_t$ 的概念。 $t$ 时刻的输出除了要参考 $t - 1$ 时刻隐层的输出 $h_{t-1}$ 之外，还要参考 $t - 1$ 时刻的细胞状态 $C_{t-1}$ 。为了计算细胞状态，引入忘记门、输出门、新记忆门、输出门几个路径。

推荐文章：如何从RNN起步，一步一步通俗理解LSTM 以及此篇文章中引用的文章，都值得好好看下。

基于colah的博客的LSTM结构图，稍微加工下得到下面的原理图：

一、LSTM正向传播算法

这块比较容易，只要严格按照上面原理图，正向传播的算法都容易得出。

1.隐藏层正向传播算法

$t$ 时刻各个门为：

忘记门： $f_t = \sigma(w_f·x_t+v_f·h_{t-1}+b_f)$
输入门： $i_t = \sigma(w_i·x_t+v_i·h_{t-1}+b_i)$
新记忆门： $g_t = tanh(w_g·x_t+v_g·h_{t-1}+b_g)$
输出门： $o_t = \sigma(w_o·x_t+v_o·h_{t-1}+b_o)$

$t$ 时刻的细胞状态 $C_t$ 为：

$C_t = f_t \bigodot C_{t-1} + i_t \bigodot g_t$

$t$ 时刻的隐层输出 $h_t$ 为：

$h_t = o_t \bigodot tanh(C_t)$

$\sigma$ 为Sigmoid函数，⨀为矩阵的哈达马积。

2.输出层正向传播算法

$t$ 时刻的最终输出为：

$y_t = softmax(w_h·h_t + b_h)$

二、LSTM的反向传播算法

重点，也是LTSM算法的难点来了。

※关于反向传播，始终要牢记其目的是：求解损失函数E关于各个权重的偏导。※

既然有了正向传播的算法公式，那么反向传播就变成了一个求偏导的纯粹数学问题。下面以对忘记门的权重 $w_f$ 求偏导为例，讲解这个过程。

损失函数E对权重 $w_f$ 的偏导为：

这里的E根据损失函数的选择而不同，例如交叉熵损失函数，即为：
$E=-\Sigma y_{true} ·ln(y_t)$

可见这个偏导由3个部分组成：

1. 损失函数E对细胞状态 $C_t$ 的偏导

首先我们要明白损失函数E是一个关于 $h_0, h_1, h_2...h_n$ 的函数，即：

$E=L(h_0, h_1, h_2...h_n)$

根据正向传播公式， $h_t$ 是 $C_t$ 的函数， $C_t$ 是 $C_{t-1}$ 的函数，即：

$h_t = H(C_t)$
$C_t = F(C_{t-1})$

这样，求损失函数E对细胞状态 $C_t$ 的偏导就成了高等数学中对复合函数求偏导的问题了。

首先计算 $t = n$ 时刻细胞状态的偏导，即E对 $C_n$ 的偏导：

反向传播，再求E对 $C_{n-1}$ 的偏导：

反向传播，再求E对 $C_{n-2}$ 的偏导：

以此类推，容易得出 $t$ 时刻E对 $C_t$ 的偏导：

根据正向传播公式，可以得出：

代入上式，最终得出：

实际上，上式的乘法“ · ”对于矩阵而言，都是哈达马积“⨀”。为了方便理解，均以单个变量而非矩阵的形式为例说明求偏导的过程，下面也是如此，不再特殊说明。

2. 细胞状态 $C_t$ 对忘记门 $f_t$ 的偏导

根据正向传播公式容易得出：

3. 忘记门 $f_t$ 对权重 $w_f$ 的偏导

根据正向传播公式容易得出：

对于Sigmoid函数及上面tanh函数的求导过程略，如果不会CSDN上也能找到具体过程。

最终得出：

在这里插入图片描述
至此，LSTM的正向传播及反向传播的过程推导结束。
后面预告下用Python实现它。
----2023.5.1更新----
填坑了，Python实现LSTM的链接：基于NumPy构建LSTM模块并进行实例应用（附代码）

猜你喜欢

转载自blog.csdn.net/m0_49963403/article/details/129231660

LSTM（长短期记忆）网络的算法介绍及数学推导

简单介绍长短期记忆网络 - LSTM

LSTM（长短期记忆网络）

LSTM 长短期记忆网络

回归算法|长短期记忆网络LSTM及其优化实现

长短期记忆网络LSTM(Python)

长短期记忆网络LSTM(matlab)

简单理解LSTM长短期记忆网络

LSTM（长短期记忆）

长短期记忆网络（LSTMs）介绍

（十二）长短期记忆（LSTM）

长短期记忆（LSTM）详解

长短期记忆神经网络（LSTM）介绍以及简单应用分析

LSTM（长短期记忆网络）结构分析理解

LSTM（长短期记忆网络）及其tensorflow代码应用

序列模型汇总__长短期记忆网络（LSTM）（二）

深度学习之长短期记忆网络LSTM理解

NLP学习04--长短期记忆网络LSTM

长短期记忆网络LSTM识别验证码

【DL-4】长短期记忆网络（LSTM）

（五）循环神经网络 -- 7 长短期记忆（LSTM）

DL入门(4)：长短期记忆网络（LSTM）

四、长短期记忆网络（LSTM）数据驱动模型

LSTM 长短期记忆神经网络及股票预测实现

LSTM神经网络：记忆长短期信息的关键

长短期记忆（LSTM）系列_LSTM的建模方法（1）——生成式LSTM网络,Encoder-Decoder LSTM网络,CNN LSTM（LRCN）网络建模介绍

长短期记忆（LSTM）系列_LSTM的建模方法（2）——如何堆叠多层LSTM网络

长短期记忆（LSTM）系列_2.1~2.3、用递归神经网络简要介绍序列预测模型

长短期记忆（LSTM）系列_1.1、回归神经网络在时间序列预测中的介绍和应用

初识LSTM长短期记忆网格

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)