在训练较为复杂的RNN类型网络时，有时会采取正交方法初始化(orthogonal initialization)网络参数。本文用简单的例子介绍其中的原因。

本文较大程度参考了这篇博客。

简单例子

RNN具有如下形式：

h t = f h (W \cdot h t - 1 + V \cdot x t)

$h_t=f_h(W\cdot h_{t-1}+V\cdot x_t)$

y t = f y (U \cdot h t)

$y_t = f_y(U\cdot h_t)$

我们考虑一个极端简化的版本：没有输入，激活函数为直通，直接输出隐变量。

y t = W \cdot y t - 1

$y_t=W\cdot y_{t-1}$

计算第t步的输出时，需要计算参数矩阵的t次幂：

y t = W t \cdot y 0

$y_t=W^t\cdot y_0$
为了计算简便，可以把方阵

W $W$ 进行正交分解：

W = Q \cdot Λ \cdot Q - 1

$W=Q\cdot\Lambda\cdot Q^{-1}$

y t = Q \cdot Λ t \cdot Q - 1 \cdot y 0

$y_t=Q\cdot \Lambda^t \cdot Q^{-1}\cdot y_0$
其中

Q $Q$ 是单位正交矩阵；

Λ $\Lambda$ 是对角阵，计算其t次幂只需要把对角线上的特征值进行幂运算即可。

优化网络参数时，使用简单的二范数代价：

E = | | y t - y t ¯ ¯ ¯ | | 2

$E=||y_t-\overline{y_t}||^2$

为了更新参数，需要计算代价对于参数的导数（是个标量）：

\partial E \partial W i = 2 (y t - y t ¯ ¯ ¯) T \cdot \partial y t \partial W i

$\frac{\partial E}{\partial W_{i}}=2(y_t-\overline{y_t})^T\cdot \frac{\partial y_t}{\partial W_i}$

梯度消失/爆炸

当RNN步数t增加时， ${\partial y_t}/{\partial W_i}$ 会怎样变化呢？

为书写直观假设 $y$ 是个二维向量。于是 $W$ 有四个参数，我们用正交分解的形式表示出来。

Q = [w 1 - w 2 w 2 w 1], Q - 1 = [w 1 w 2 - w 2 w 1]

$Q=\left[ \begin{matrix}w_1 & w_2 \\ -w_2 & w_1\end{matrix}\right], Q^{-1}=\left[ \begin{matrix}w_1 & -w_2 \\ w_2 & w_1\end{matrix}\right]$

Λ = d i a g (w 3, w 4)

$\Lambda = diag(w_3, w_4)$

可以直接写出 $y_t$ 的表达式（善用Matlab的syms功能）：

y t = [w 21 w t 3 + w 22 w t 4 w 1 w 2 (w t 4 - w t 3) w 1 w 2 (w t 4 - w t 3) w 21 w t 4 + w 22 w t 3] \cdot y 0

$y_t=\left[ \begin{matrix}w_1^2w_3^t+w_2^2w_4^t & w_1w_2(w_4^t-w_3^t) \\ w_1w_2(w_4^t-w_3^t) & w_1^2w_4^t+w_2^2w_3^t\end{matrix}\right]\cdot y_0$

分别写出对四个参数的导数（长度为2的矢量）：

\partial y t \partial w 1 = [2 w 1 w t 3 w 2 (w t 4 - w t 3) w 2 (w t 4 - w t 3) 2 w 1 w t 4] \cdot y 0

$\frac{\partial y_t}{\partial w_1}=\left[ \begin{matrix}2w_1w_3^t & w_2(w_4^t-w_3^t) \\ w_2(w_4^t-w_3^t) & 2w_1w_4^t\end{matrix}\right]\cdot y_0$

\partial y t \partial w 2 = [2 w 2 w t 4 w 1 (w t 4 - w t 3) w 1 (w t 4 - w t 3) 2 w 2 w t 3] \cdot y 0

$\frac{\partial y_t}{\partial w_2}=\left[ \begin{matrix}2w_2w_4^t & w_1(w_4^t-w_3^t) \\ w_1(w_4^t-w_3^t) & 2w_2w_3^t\end{matrix}\right]\cdot y_0$

\partial y t \partial w 3 = [t w 21 w t - 1 3 - w 1 w 2 w t - 1 3 - t w 1 w 2 w t - 1 3 t w 22 w t - 1 3] \cdot y 0

$\frac{\partial y_t}{\partial w_3}=\left[ \begin{matrix}tw_1^2w_3^{t-1} & -tw_1w_2w_3^{t-1} \\ -w_1w_2w_3^{t-1} & tw_2^2w_3^{t-1}\end{matrix}\right]\cdot y_0$

\partial y t \partial w 4 = [t w 22 w t - 1 4 w 1 w 2 w t - 1 4 t w 1 w 2 w t - 1 4 t w 21 w t - 1 4] \cdot y 0

$\frac{\partial y_t}{\partial w_4}=\left[ \begin{matrix}tw_2^2w_4^{t-1} & tw_1w_2w_4^{t-1} \\ w_1w_2w_4^{t-1} & tw_1^2w_4^{t-1}\end{matrix}\right]\cdot y_0$

重点：每一项里都有 $w_3,w_4$ 的t或t-1次幂。不考虑细节，这个推导说明：

代价对于参数的导数 $\propto$ 参数矩阵特征值 $\lambda_i$ 的t次方。

如果 $|\lambda_i|>1$ ，则步数增加时 $\lambda^t$ 超出浮点范围，发生梯度爆炸，优化无法收敛；
如果 $|\lambda_i|<1$ ，步数增加时 $\lambda^t$ 变为0，发生梯度消失，优化停滞不前。

正交初始化

理想的情况是，特征值绝对值为1。则无论步数增加多少，梯度都在数值计算的精度内。

这样的参数矩阵 $W$ 是单位正交阵。

把转移矩阵初始化为单位正交阵，可以避免在训练一开始就发生梯度爆炸/消失现象，称为orthogonal initialization。

其他解决方法

除了正交初始化，在RNN类型网络训练中，还可以使用如下方法解决梯度消失/爆炸问题：
- 使用ReLU激活函数->解决梯度消失
- 对梯度进行剪切（gradient clipping）->解决梯度爆炸
- 引入更复杂的结构，例如LSTM、GRU->解决梯度消失

【深度学习】RNN的梯度消失/爆炸与正交初始化

简单例子

梯度消失/爆炸

正交初始化

其他解决方法

猜你喜欢