循环递归神经网络

1、在自然语言处理过程中，神经网络中输入的语言中的每个单词都是以向量的形式送入的，那个该怎样将语言转化为向量形式呢？

一般采用1-of-N编码方式处理，处理过程如下：

具体原理参考笔记：

http://blog.csdn.net/chloezhao/article/details/53484471

2、Long Short-term Memory(LSTM)结构框架如下图所示：

由图可知：LSTM共有三个门和一个内存单元，顾名思义，是门就有开和关两种状态，所以三个门都有各自的信号控制部分分别控制三个门的状态，像一般的神经网络节点只有一个输入和输出，而对于LSTM来说，该网络有四个输入（一个网络输入和三个门控信号）和一个输出。

其运行过程如下图所示：

这里的激活函数一般是sigmoid函数，sigmoid函数的输出为0~1之间的值。注意这里遗忘门的输入是相乘，而输出是相加。

LSTM实际运行例子如下：

输入向量为x，输出为y

其中x1为网络需要处理的数据，定义x2、x3的功能分别如下：

注意这里遗忘门和输入门都是由x2控制，故x2可以有三-1、0、1种状态，x3是输出门控制信号，实际结果处理如下：

第一排数据是内存中的数据改变值过程。

具体处理过程的方式如下，只例举了其中部分

由图中注意到，每一个输入的节点都有相同的输入，而每个节点不同的效果则由各个输入的权重值决定，实际的输入除了x1、x2、x3之外，还有一个1，这个输入1的作用后面再解释，下面就从权重这个角度解释各个门的作用效果，LSTM单元输入模块中，只有x1的权重不为0，而其他的权重均为0，所以所以给模块输入只有x1有作用。同理对于输入门和输出门而言，只有x2、1有作用，输出门只有x3、1有作用。

由以上分析可知，1只有在输入、输出和遗忘门中才有作用，而在遗忘门中和另外两个门的作用效果又不相同，1的实际作用需要从激活函数说起，一般来说LSTM的门节点的激活函数均为sigmoid函数，输出范围为0~1之间，而实际输出则为0和1两个状态，所以在sigmoid输出后会进行归一化处理，以0.5作为阈值，大于0.5则输出1，否则为0。因为输入门和输出门1的权重相同，所以作用效果也一样，只要分析其中一个即可，对于输入门而言x2其作用，而x2有三种不同的取值，分别为-1、0、1；当取值为1时，激活函数输入值为100-10=90，sigmoid函数输出值大于0.5，标准化后输出为1，即输入门开，当为-1时，sigmoid输入值为-110，此时sigmoid输出小于0.5，标准化后为0，输入门关闭。当为0时，1的作用体现出来了，如果没有1，则sigmoid函数输入值为0输出值为0.5，此时就无法将其标准化为0或者1了，如果有一个1，则sigmoid函数输入值为-10，输出值小于0.5，可将其标准化为0。输出门的作用也是同样的道理。对于遗忘门而言，x2为-1才有作用，复位内存，即sigmoid函数输出为0，当x2为-1时，sigmoid输入值为-90，输出小于0.5标准化后为0，复位内存，同理当x2为1是，sigmoid输出标准化后输出为1，当x2为0是，如果没有1，则会出现输入门一样的情况，无法标准化为0或者1，有1后就可以标准化为1.

数据流向过程如下图所示：

刚开始内存中的值为0。