LSTM算法原理理解

神经网络

　　模拟人类大脑神经网络结构，每个神经元和其他的神经元相互连接，当它兴奋的时候会向相连的神经元发送化学物质，从而改变神经元的电位，当神经元的电位超过阈值，它会被激活，向其他神经元发送化学物质。其实神经网络的本质就是学习从输入到输出的函数映射，因为遇到一个未知的问题，无法对问题进行函数建模，利用神经网络学习出函数模型，这个学习的结果最终其实是每一层神经元的权重。

　　每一个神经元都会在线性运算后的结果上（W*x+b），套上一个激活函数。激活函数的作用其实就是增强网络模型的非线性性，因为激活函数就是一个非线性函数，当如果每一层神经元后不添加激活函数，那么输出其实就是输入的线性组合，不管网络有多少层，输出就是输入的线性组合。常见的激活函数有tanh（-1,1）,sigmod（0,1）,relu[0,1)。

RNN

　　普通的神经网络假设输入和输入之间是相互独立的，但是很多时候人类理解事物都是基于上下文的。RNN和普通的神经网络的区别在于，不仅仅每层之间的神经元存在连接，同一层之间的神经元也存在连接，上一个时刻的状态能作用与下一个时刻的状态。但是当网络层数过深的时候，RNN不好训练，可能会造成梯度消失或是梯度爆炸的问题。RNN采用基于时间的反向传播法（BPTT）进行训练，这种训练方法也是一种梯度下降法。当网络结构太深，造成网络结构太深，网络权重不稳定，本质来说是因为梯度反向传播中的连乘效应。

　　当梯度消失时，会造成神经网络参数无法更新，停止了学习。梯度爆炸则是更新速率太快，大幅度更新网络权重，可能无法学习到权重最佳值，也可能造成权重值为NaN而无法更新权重。

RNN图示结构：

LSTM

　　RNN无法解决长期依赖问题，输出和前面很长一段序列有关。LSTM则设计用来解决这种问题，LSTM相比RNN来说，就是添加了三个门：遗忘门，输入门，输出门。

　　遗忘门：决定从细胞状态中丢弃什么信息

　　输入门：决定让多少新的信息加入细胞状态，这一步将输出细胞状态

　　输出门：确定输出值，该输出值基于细胞状态

猜你喜欢