深度学习——循环序列模型[14] - 代码天地

深度学习——循环序列模型[14]

其他 2018-05-18 22:21:44 阅读次数: 9

哪些是序列数据

2. 符号表示

例子：从一句话中识别出名字(named-entity recognization problem，搜索引擎中比如找出新闻人物、时间等应用)，输出的0、1表示是否是名字

X是输入，x^<t>表示输入的第t个值，y是输出，也有对应的位置。Tx表示输入的长度，Ty表述输出的长度。x^(i)<t>表示第i个样本的第t个值

怎么表示输入

建立一个字典dictionary，一般30,000-50,000个，按序排列单词。如下，字典为10,000个词，对于输入，每个词用一个10000维的向量表示。如单词为a，a在字典第一个位置，则向量第一个值为1，其他为0，也称为one-shot

3. RNN模型

为什么不用标准的网络来处理这个问题（每个值分别作为网络的输入）：

输入和输出的结果长度不一定相同；结果不能很好地共享，比如第一个词学到peter为人名，当学到第三个位置也是peter时如果能获得第一个位置的结果也很有用

recurrent neural network模型

从左到右读取输入，把x<1>输入到网络的第一个隐藏层，然后识别出结果y hat，并输出激活值a<1>，当读取到x<2>时，它会利用输入的x<2>以及第一个time-step时间步的结果a<1>来预测结果

右侧的图一般在论文什么中会使用

waa表示：用来计算a，且需要乘以a

wax：用来计算a，后面需要乘以x

RNN的一个缺点：可能只利用前面的信息并不能得出正确的结果，比如第二句话，he said后，并不能很好地判断Teddy是否人名，所以有BRNN

前向传播

一般用tanh激活函数，计算a和y使用的激活函数是不同的。只是一般不特意用不同的符号区分

简化符号表示：把向量堆叠

5. 反向传播

loss函数定义，反向传播backpropagation through time红色的部分

5. RNN不同结构类型

one-to-one：基本的结构

many-to-many：长度相同的

many-to-many：长度不同的，先读入所有输入，然后输出，如机器翻译

one-to-many：序列生成，如输入一个音符，然后输出一串音乐，把中间时间步的输出作为下一步的输入

many-to-one：情感分析，根据一句话来分析他的情感分类，比如好、不好等。所有输入后，最后输出一个结果来判断等级

6. 语言模型

什么是语言模型：判断出输入是某一句话的概率，这里的概率计算为什么用P(y<1>..），而不是用P(x<1>。。）?后面会说

数据的表示：训练集：corpus of english text

建立一个字典，把单词符号化，每个单词为y<t>，对于未知的用UNK表示，结束用EOS表示

第一个输入x<1>为空，输出为P(a), P(ab)...，也就是字典中任一单词为首个单词的概率，用softmax

第二个输入x<2>=y<1>：当正确的首个单词为cats时，第二个单词是任一个的概率，这里用了条件概率P(average|cats）

最后，P(y<1>, y<2>,y<3>) 是各个输出的乘积。所以前面为什么不用x？用y的话会表示前面的输出吧，x只能表示输入？

这里也定义了Loss函数

7. 对新序列进行采样

看看RNN学出了什么，对训练的结果进行采样

采样：对y hat输出根据概率分布随机采样得到一个结果，把采样的结果作为下个的输入。如何判断结束：EOS或规定步数

基于字符的语言模型

每个单词都是识别成字符，上面是基于词汇的语言模型

字符的缺点：数据大，单词间的联系不好

8. 梯度消失问题

比如上面的句子，cat和后面的单复数was是有影响的，如果网络层数很多，就很难影响到

还有梯度消失问题，比较难解决

梯度爆炸问题，可以用梯度剪枝来解决，当判断梯度到一定阈值时就进行调整

8. GRU gated recurrent unit

一个RNN单元

简化的GRU

c 表示memory cell，是记忆细胞，比如记住cat是单/复数

C~<t>是用来更新c<t>人候选值

下面一个是用来更新的门，u表示更新

在下是更新的计算公式

因为tanh有两个部分取值趋近于-1/1，所以不容易出现梯度消失的问题

完整的GRU：

增加一个参数r，来表示c~<t>和c<t-1>之间的关系读

9. LSTM long short term memory

与GRU相比，它有3个门，更加复杂，现在一般做为默认的选择。GRU更简单，更容易建立复杂的网络，速度更快

peephole connection：除了a和x，上一个c<t-1>也会对门值产生影响

这里不再像GRU，c和a不再相等

10. BRNN bidirection RNN双向RNN

例：要判断Teddy是否为人名，不仅要前面的信息，也需要后面的信息

标准的BRNN结构

有从左向右的计算，也有从右向左的计算，构成一个Acyclic graph无环图，最后y hat结果是通过两个方向的激活值来得到

中间的单元可以是标准的RNN，也可以是GRU/LSTM单元

一般NLP问题会使用LSTM单元的BRNN结构

BRNN需要一个完整的句子，如果用于语音识别，就需要等一个人把话都说完才可以。所以这个标准的结构更适合于NLP问题

10. 深层循环神经网络

在原来的时间序列上叠加几层，一般层数不会太多，但是一个时间步中可以有多层，只是水平方向不链接

猜你喜欢

转载自www.cnblogs.com/coolqiyu/p/8894682.html

深度学习——循环序列模型[14]

《深度学习工程师-吴恩达》05序列模型--循环序列模型学习笔记

[深度学习]序列模型

吴恩达深度学习 | 序列模型（第一周循环序列模型）

吴恩达深度学习课程之序列模型第一周-循环序列模型思维导图

深度学习笔记第五门课序列模型第一周循环序列模型

ng-深度学习-课程笔记-15: 循环序列模型(Week1)

吴恩达《深度学习》第五门课（1）循环序列模型（RNN）

吴恩达深度学习5.1笔记_Sequence Models_循环序列模型

花书+吴恩达深度学习（十五）序列模型之循环神经网络 RNN

5.1 深度学习序列模型笔记

吴恩达深度学习——序列模型

花书+吴恩达深度学习（十六）序列模型之双向循环网络 BRNN 和深度循环网络 Deep RNN

Coursera 深度学习吴恩达 deep learning.ai 笔记整理（5-1）—— 序列模型之循环序列模型

吴恩达Coursera深度学习课程 deeplearning.ai (5-1) 循环序列模型--课程笔记

花书+吴恩达深度学习（十七）序列模型之长短期记忆 LSTM 和门控循环单元 GRU

【深度学习】序列生成模型（三）：N元统计模型

吴恩达Coursera深度学习课程 deeplearning.ai (5-1) 循环序列模型--编程作业(一)：构建循环神经网络

循环序列模型-2

循环序列模型-1

吴恩达Coursera深度学习课程 deeplearning.ai (5-1) 循环序列模型--编程作业(二)：字母级别的语言模型 - 恐龙岛

序列模型——循环序列模型（理论部分）

【深度学习模型】循环神经网络RNN

门控循环单元网络(GRU)在深度学习模型中的应用

深度学习序列——稀疏自编码器模型(SAP)

深度学习序列——自编码器(AE)模型

深度学习——序列模型和注意力机制[16]

吴恩达深度学习之序列模型(一)

吴恩达深度学习笔记六：序列模型

【Ng 深度学习总结】05. 序列模型

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)