我对LSTM的理解(一)

作者:Tobin
日期:2019/04/12
缘起:最近在做时间序列分析的实验,FCN网络做时序数据分类的效果还可以,由于时间的依赖性,自然地想到是否可以利用LSTM网络进行时序数据的分类。我对CNN比较了解,但是对LSTM,感觉很多文章都介绍得太笼统,大部分都是介绍cell,而忽略了它和CNN的联系。

LSTM叫长短期记忆网络(Long short term memory),是RNN循环神经网络(Recurrent Neural Network)的一个变形。我们先讲讲RNN。

RNN

每个绿色的部分叫做cell,看起来它们好像是不同的cell,但实际上它们只是同一个cell在不同时刻的样子!中间的这个cell清晰地画出了数据经过它到底进行了怎样的操作~输入是上一次cell输出的状态值和此时刻的输入,组合后,乘以权重和偏置,经过一次tanh就得到了这个cell的输出。

普通的RNN对于处理短的序列数据还行,当数据很长时,就会出现梯度消失和梯度爆炸的问题。所以又提出了改进版RNN,LSTM。

LSTM

LSTM多了什么呢?
看下面的图,很复杂对嘛,我们细细讲解。LSTM多了一个表示cell记忆的值。也就是我们不仅要更新当前cell的输出,我们还要思考,哪些东西可以记在我们的cell里呢,记忆的话,记多少又如何确定呢?既然有了记忆,那么我们的输入不仅仅有上一时刻的输出,此刻的输入,还有cell本身存储的那部分信息。所以LSTM的构造看起来很复杂,其实是围绕着记忆做操作的。

下图的C就表示记忆。

为了实现我们引入的记忆的思想,构造了三个门,遗忘门,输入门,输出门。

遗忘门

遗忘门能决定应丢弃或保留哪些信息。来自先前隐藏状态的信息和当前输入的信息同时输入到Sigmoid函数,输出值处于0和1之间,越接近0意味着越应该忘记,越接近1意味着越应该保留。这个f就可以用来操控遗忘哪些数据。

输入门

f是forget的意思,i是input的意思。
输入门用来更新单元状态。先将先前隐藏状态的信息和当前输入的信息输入到Sigmoid函数,在0和1之间调整输出值来决定更新哪些信息,0表示不重要,1表示重要。也可将隐藏状态和当前输入传输给Tanh函数,并在-1和1之间压缩数值以调节网络,然后把Tanh输出和Sigmoid输出相乘,Sigmoid输出将决定在Tanh输出中哪些信息是重要的且需要进行保留。

下面这张图显示了,两个门是如何控制遗忘和记忆的。

输出门

我们确定了当前的状态,那么当前状态的多少可以进行输出呢?控制Ct输出的门叫输出门,用Ot表示。
输出门能决定下个隐藏状态的值,隐藏状态中包含了先前输入的相关信息。当然,隐藏状态也可用于预测。首先把先前的隐藏状态和当前输入传递给Sigmoid函数;接着把新得到的单元状态传递给Tanh函数;然后把Tanh输出和Sigmoid输出相乘,以确定隐藏状态应携带的信息;最后把隐藏状态作为当前单元输出,把新的单元状态和新的隐藏状态传输给下个时间步。

代码实现

def LSTMCELL(prev_ct, prev_ht, input)
    combine = prev_ht + input
    ft = forget_layer(combine)
    it = input_layer(combine)
    ot = ouput_layer(combine)
    candidate = candidate_layer(combine)
    Ct = prev_ct*ft+candidate*it
    ht = ot*tanh(Ct)
    return ht, Ct
    
ct = [0, 0, 0]
ht = [0, 0, 0]

for input in inputs:
    ct, ht = LSTMCELL(ct, ht, input)

ht和xt结合后(拼接),构造出三个门控单元。再进行此cell在t时刻状态Ct的更新,利用Ct输出ht。inputs是一个输入的时间序列,可以看出,LSTM在不同时刻输入,只是在不断地循环输入而已。整个代码由几个张量操作和一个for循环组成,循环神经网络名字的来源一看便知哈。

扫描二维码关注公众号,回复: 5865725 查看本文章

多层LSTM

多层LSTM只是将单个cell进行堆叠。LSTM比为啥比CNN难理解呢?因为它把神经元的个数都藏到cell里面啦。假设大家都了解过CNN,看下面的图是不是有点感觉呢?我来解释一下,一个cell其实就是一层神经元,只是LSTM和CNN不同的是,它的每一层t时刻的输出和t-1时刻的状态有关。也就是说当前cell的输出ht不仅仅影响到下一cell(图中右边的那列),还影响本cell下一时刻的状态和输出(图中按时间顺序堆叠的三个绿色的cell)。
理解到这一点了,我们也自然地理解到,xt可以是多维的。然后每个cell的hidden_size都可以进行设置。

多层LSTM的代码

代码暂时没写,未完待续~
参考资料:
https://zhuanlan.zhihu.com/p/46981722
https://blog.csdn.net/gzj_1101/article/details/79376798

猜你喜欢

转载自www.cnblogs.com/zuotongbin/p/10698843.html