LSTM模型的两种分解技巧

其他 2020-01-16 11:50:44 阅读次数: 0

介绍

LSTM模型在语言模型，机器翻译等领域取得了非凡的成就，然后LSTM网络有几百万的参数以及需要数周在多GPU系统中进行训练。因此，一下介绍两种方法来缩减网络参数以及训练时间。两种方法分别为factorized LSTM（FLSTM）以及group LSTM（GLSTM）。

FLSTM

FLSTM网络主要是将大的LSTM矩阵转化为两个小的矩阵。

LSTM模型简单介绍

在LSTM网络中，
这里写图片描述
其中 $x_t$ 表示输入， $h_t$ 表示cell state， $c_t$ 表示cell memory。
令cell gates（i,f,o,g）可以计算为：

其中 $x_t \in R^p,h_t \in R^p.and T:R^{2p} \rightarrow R^{4n}$ 是一个仿射变换 $T = W * [x_t,h_{t-1}] + b$ ，则 $h_t \in R^p,c_t \in R^n 可以用下面的等式计算$ ：
这里写图片描述
其中， $P : R^n \rightarrow R^p$ 是一个线性的映射，这里主要的计算量是在仿射变换T，由于其涉及到4n*2p的矩阵W，因此，FLSTM网络主要减少W的参数。

优化方法

在FLSTM网络中，主要是将矩阵W转化为两个矩阵，可以近似为 $W \approx W_2 * W_1$ ，其中 $W_1$ 大小为2p*r， $W_2$ 大小为r*4n。并且，r < p <= n ，这里主要的假设是矩阵W能够被r阶矩阵所表示，因为转换后的参数大小为（r*2p+r*4n），而LSTM网络的参数为2p*4n。
这里写图片描述

GLSTM

GLSTM主要是将不同的LSTM cell分到独立的组里。
假定一些输入 $x_t$ 以及隐藏层 $h_t$ 可以被分到不同的独立的组中。例如，如果有两个组，则 $x_t$ 和 $h_t$ 能够有效的被分成两个向量， $x_t = (x_t^1,x_t^2)$ 和 $h_t = (h_t^1,h_t^2)$ ，其中 $h_t^i$ 仅依靠 $x_t^i,h_{t-1}^i$ 以及cell memory state。因此，分为k个组的公式可以表示为：
这里写图片描述

其中， $T^j$ 是组j的从 $R^{2p/k} 到 R^{4n/k}$ 的放射变换，组T有 $k*\frac{4n*2p}{k*k}$ 个参数，这种结构适合并行计算，因为每个组的计算都是独立的。具体结构如图1所示。

实验结果

这里写图片描述

这里写图片描述

源码

https://github.com/okuchaiev/f-lm

参考文献：
factorization tricks for lstm networks

一夜了

发布了98 篇原创文章 · 获赞 337 · 访问量 48万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/yiyele/article/details/81141616

LSTM模型的两种分解技巧

14.为什么LSTM模型中存在sigmoid与tanh两种激活函数，而不是选择一种

两种dp模型

两种盒模型

Python 字典排序的两种技巧

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数，而不是选择统一一种sigmoid或者tanh？

两种网络分层模型

css 两种盒模型

go chan 两种应用模型

HTML的两种盒子模型

css的两种盒模型

pytorch模型存储的两种方式

Pytorch两种模型保存方式

盒模型两种模式区分

HTML两种盒模型

浅谈前端两种盒模型

【Javaweb】JavaWeb两种开发模型

langchain入门及两种模型的使用

二、两种消息模型，RocketMQ（Kafka）的消息模型

两种好用的清除浮动的小技巧（clearfix hack）

MarkDown技巧：两种方式实现页内跳转

sklearn保存模型的两种方式 sklearn 中模型保存的两种方法

RNN隐藏层的两种计算方法GRU和LSTM

JMS两种消息模型、点对点、发布订阅

序列标注模型中的两种标记模式

tensorflow 恢复(restore)模型的两种方式

Shiro权限模型以及权限分配的两种方式

详细介绍JSP技术的两种架构模型

tensorflow 读取两种格式的模型并进行预测

Hotspot虚拟机的两种架构模型

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)