CS231n-2017 第4讲反向传播算法与神经网络

一. 反向传播算法

计算图模型

设有算式

f (W, x) = \frac{1}{1 + e^{- (ω_{0} x_{0} + ω_{1} x_{1} + ω_{2})}}

$f(W, x) = \frac{1}{1+e^{-(\omega_0 x_0 + \omega_1 x_1 + \omega_2)}}$
使用计算图模型展示其前向计算过程，以及梯度的后向传播过程如下图所示：

图 1. 计算图模型展示前向与后向传播

在反向传播过程中，加法门像一个分发器，将传过来的梯度值分发给加法门的输入；最大操作门像一个路由器，将传过来的梯度值导向最大值；乘法门像一个交换器，将传过来的梯度值分别乘上各自的乘数。

注：个人认为计算图适合可视化地展示前向计算和后向传播过程，但不适合指导编程。(虽然在编程时，可以把各个运算操作抽象为门对象，然后对每一类门规定其前向与后向算法。)后面将针对神经网络给出基于代数表达的后向传播算法。

二. 神经网络

网络结构

考虑线性多分类器中的系数 $\omega$ ，其可以视为一个模板向量，最终输出的是每幅图像在各个类别的模板向量上的得分。这个模型的一个不足之处是各个类别仅有一个模板向量。比如现在要匹配一匹马，马可能头朝右，可能头朝左，还可能头朝下在吃草。那么一个模板向量就不够用了。那么考虑一个类别对应多个模板向量，然后再添加一层，将一幅图在多个模板向量上的得分综合一下，得到在输出类别上的得分，这样就构成了一个二维神经网络的雏形。但又考虑到线性函数的复合仍为线性函数，因此，在两个线性函数之间添加一个非线性激活函数。两层神经网络的结果图示如下：

图 2. 两层神经网络结构图

其数学表达为：

f = W_{2} max (0, W_{1} x)

$f = W_2\max{(0, W_1x)}$

反向传播算法——基于代数的表达

由于神经网络由一层一层的类似结构堆叠而成，因此可以考虑对某一层进行偏导计算。设该层结构如下图示，则其输入输出关系可表达为

\vec{z} = h (\vec{a}) = h (W \cdot \vec{x})

$\vec{z} = h(\vec{a}) = h(W\cdot\vec{x})$

图 3. 某神经网络层输入输出图示

注意，上述表达中已经将偏置项吸收进了 $W$ 。则有

[\begin{matrix} z_{1} \\ ⋮ \\ z_{P} \end{matrix}] = [\begin{matrix} h (r o w_{1} W \cdot \vec{x}) \\ ⋮ \\ h (r o w_{P} W \cdot \vec{x}) \end{matrix}] \Rightarrow \frac{\partial z_{i}}{\partial W} = h^{'} (a_{i}) [\begin{matrix} 0 \\ ⋮ \\ {\vec{x}}^{T} \\ ⋮ \\ 0 \end{matrix}] \leftarrow i^{t h} r o w

$\left[ \begin{array}{c} z_1 \\ \\ \vdots \\ \\ z_P \end{array} \right] = \left[ \begin{array}{c} h(row_1W\cdot \vec{x}) \\ \\ \vdots \\ \\ h(row_PW\cdot \vec{x}) \end{array} \right] \Rightarrow \frac{\partial z_i}{\partial W} = h'(a_i)\left[ \begin{array}{c} 0 \\ \vdots\\ \vec{x}^T\\ \vdots \\ 0 \end{array} \right] \color{red}{\leftarrow i^{th}\,\rm{row}}$

设损失函数关于 $\vec{z}$ 的偏导已求出，记为 $\partial L/\partial\vec{z}$ ，则

\frac{\partial L}{\partial W} = \sum_{i} \frac{\partial L}{\partial z_{i}} \frac{\partial z_{i}}{\partial W} = [\frac{\partial L}{\partial \vec{z}} ⊙ h^{'} (\vec{a})] \cdot {\vec{x}}^{T}

$\frac{\partial L}{\partial W} = \sum_i \frac{\partial L}{\partial z_i}\frac{\partial z_i}{\partial W} = \left[\frac{\partial L}{\partial \vec{z}}\odot h'(\vec{a})\right]\cdot \vec{x}^T$

其中 $\odot$ 表示Hadamard积，即两个同维向量对应元素相乘。

现考虑 $\partial L/\partial\vec{z}$ 。事实上，对下一层求 $\partial L/\partial\vec{z}$ ，即对上一层求 $\partial L/\partial\vec{x}$ 。

\frac{\partial z_{i}}{\partial \vec{x}} = h^{'} (a_{i}) \cdot [{r o w}_{i} W]^{T} \Rightarrow \frac{\partial L}{\partial \vec{x}} = \sum_{i} \frac{\partial L}{\partial z_{i}} \frac{\partial z_{i}}{\partial \vec{x}} = W^{T} \cdot [\frac{\partial L}{\partial \vec{z}} ⊙ h^{'} (\vec{a})]

$\frac{\partial z_i}{\partial \vec{x}} = h'(a_i)\cdot [{row}_i W]^T \Rightarrow \frac{\partial L}{\partial \vec{x}} = \sum_i \frac{\partial L}{\partial z_i}\frac{\partial z_i}{\partial \vec{x}} = W^T\cdot \left[\frac{\partial L}{\partial \vec{z}}\odot h'(\vec{a})\right]$

注:

若要获得偏置项 $\vec{b}$ 的梯度，仅需从 $W$ 的梯度表达中将最后一列单独拆出。
对于输出层， $\partial L/\partial\vec{z}$ 单独计算。