机器学习:循环神经网络RNN原理分析—— 《Python深度学习》读书笔记(4)

版权声明:随便转载,互相学习,注明来源即可,不想注明也没事 https://blog.csdn.net/yangwohenmai1/article/details/89060001

 本系列文章是对《Python深度学习》这本书阅读过程中,提炼出来的读书笔记。

《Python深度学习》这本书的作者是Kreas之父,也是Tensorflow框架的贡献者,本书的特点是,作者从一个编程学习者的角度来描述机器学习,而不是堆上来复杂的数学公式和函数变换。所有的数学理论或者公式,都用程序的方式描述出来,对于没有数学功底的开发者来说是一个很大的福利。不过当然,后期还是离不开数学,但作为入门来说这本书就相当的好了。

本章讲的是循环神经网络,托了很久没有整理,趁着放假把这一章整理好。内容较多,分为三部分,先讲的是循环神经网络的基本原理。

本章知识点:

1.非循环神经网络的特点

非循环神经网络在处理时间序列时,无法一个一个的按照元素处理,只能将一个序列当作一个数据点来处理。也就是将一批数据转换成一个大的数据向量,一次全部输入网络中,然后由网络一次性处理。这种网络也叫做前馈网络。

2.循环神经网络的特点

循环神经网络则可以对一个序列内部的数据元素进行遍历,每遍历一个元素时都保存当前的状态,作为下次迭代的输入状态。对多个序列进行批量处理时,每个独立的序列之间的状态会被重置。

3.通过伪代码了解循环神经网络机制

通过观察笔记中的伪代码部分,可以看到循环神经网络的特点,循环神经网络中有一个for循环,for循环中执行了一个运算规则:activation(dot(w,input)+dot(u,status)+b). w和u时两个权重矩阵,w矩阵和input做点积运算,u矩阵和status做点积运算,最后加一个偏置向量b,循环层中包含一个激活函数。

循环网络会记录每一次循环产生的status值,作为下次的输入,而最终输出结果时,只输出最后一个状态,但最后一个状态包含了历史数据的所有信息。笔记中对输入输出特征向量形状进行了标注。

4.循环神经网络的中间层

循环神经网路处理批量数据时,输入和中间层的形状为(beatch_size(n),timestemp(x),feature(y)),表示有n批数据,每批数据包含元素个数为x,每个数据元素包含特征维度为y

最终输出层的形状为(beatch_size(n),feature(y)),表示有n批数据,包含的特征维度为y.

这种差异理解起来也很好理解,因为中间层需要告诉下一层,一个序列中的时间步长时多少,这样网络可以对一个序列中的每个元素进行遍历操作。而最终输出层需要保存的有用的状态,是每一个序列最终的输出状态status,所有的中间状态信息都包含最终的输出状态中,所以只需记录每个序列的最终输出状态即可,timestemp这个参数也就不重要了。

 

 

猜你喜欢

转载自blog.csdn.net/yangwohenmai1/article/details/89060001