A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

1.主要工作

1.找到网络中的哪个构造使得LSTM网络变得成功。

2.探索ReLU函数在RNN网络中是否还是好用，优化起来是否还是很容易。

2.创新点

提出了利用单位矩阵或者其成比例变化的矩阵去初始化权重矩阵，能够使得ReLU函数变得很容易训练而且擅长长距离依赖。

3.研究领域目前存在的问题以及已有的解决方法

利用BPTT算法对误差求导很复杂，存在梯度消失和梯度爆炸的问题。解决方法

1.放弃了随机梯度下降算法，采用 Hessian-Free (HF) optimization method，即便在曲率很低的情况下，HF技术也能够提供小的梯度下降。但是最近的研究发现，在有目的的初始化权重矩阵和大的梯度被剪裁掉的假设下，带有动量（momentum）的随机梯度下降算法与HF技术有相同的效果。深入研究HF技术更有前景但是应用起来非常困难，而带有动量的随机梯度下降算法和对每一个权重都根据它之前的梯度值进行自适应的学习率调整的两种方法实施起来比较简单。

2.目前为止最成功的技术是LSTM网络结构。

3.ReLU激活函数比tanh和sigmoid函数更容易训练。

4.本文提出的解决此问题的方法

5.设计的网络结构以及原理

1.将权重矩阵初始化为1，将偏置初始化为0。

2.使用了ReLU激活函数的RNN网络。

3.这种网络成为IRNN

6.本文方法的不足

7.以后的工作方向

8.实验设计

1.只有两个输入单元的循环网络，第一个输入是输入一个实数，第二个输入是输入0和1，网络要做的是将第二个输入是1的第一个输入的值相加。

2.MNIST数据集将IRNN和LSTM进行比较。

3.在一个大的语言模型任务中，将IRNN和LSTM进行比较，因为LSTM的memory unit中包含较多的参数，所以分别将含有N个 memory unit 的LSTM网络同①IRNN四层每层N个隐藏单元（hidden unit）②IRNN一层2N个hidden unit 进行比较。发现IRNN和LSTM的效果差不多。

4.在一个声学模型叫做TIMIT。因为这个模型中只需要短期的依赖，所以将单位矩阵乘以0.01，这样的IRNN和LSTM效果差不多。

实验主要对比了IRNN和LSTM网络的性能，有两种候选的LSTM结构，一种是使用tanh激活函数，一种是使用ReLU激活函数，并使用随机高斯分布进行初始化。

对于IRNN，对循环结构的权重初始化为单位矩阵，不是循环结构的权重以均值为0，方差为1的随机高斯分布进行初始化。

对于LSTM，使用了包含忘记门的标准的LSTM结构，因为设置一个大的初始化忘记门的值，可以更好的处理长期以来问题，所以在实验中我们使用{1，4，10，20}中表现好的作为忘记门的初始化值。

训练是采用随机梯度下降算法，采用俄固定的学习率，使用了梯度裁剪技术。

9.是否用了网上数据集，用了什么数据集

10.自己关于这篇文章的想法以及存在的问题

toy problem是什么意思

作者做了很多证明自己关于初始化权重矩阵为1的想法能达到很好的效果的实验，但是实验中并没有仔细调试其他网络模型，而且文章缺乏理论推导，只有实验说明和实验结果，说服力一般。

刘爱然

发布了23 篇原创文章 · 获赞 6 · 访问量 1332

私信关注

一种初始化使用ReLU激活函数的RNN权重的简单方式