递归神经网络(RNN)随记

基本概念

想法:在之后的输入要把之前的信息利用起来。W3就相当于对中间信息进行一个保留。

X和U组合成一个特征图,A表示一个记忆单元。

V矩阵相当于对St进行一个全连接的操作。最终的输出需要通过softmax将向量转化成概率的形式。RNN最适合做自然语言处理。图像处理上没有要求前后关联。

求梯度,每一步都会对前面所有的都进行更新。

递归神经网络的问题

RNN的问题:如果输入的句子非常长例如:200个字,那他会把所有的字记忆下来。那么离的比较远的,它的信息价值是不是没那么高!会不会造成一些影响。过长的情况下也会有梯度消失的问题。如果某一步的梯度约等于0,那么前面与它相连的都会约等于0。

LSTM(长短神经网络)

Ct是指细胞状态,我们需要永远更新下去。当前门是遗忘门,决定哪些信息是需要遗忘的。
当前门是计算要保留的信息。
Ct是不断迭代不断更新的。

完整结构。

猜你喜欢

转载自juejin.im/post/5bed10d351882512e76c451e