反向传播算法（back propagation）

反向传播算法是多层神经网络的训练中举足轻重的算法，本文着重讲解方向传播算法的原理和推导过程。因此对于一些基本的神经网络的知识，本文不做介绍。在理解反向传播算法前，先要理解神经网络中的前馈神经网络算法。

前馈神经网络

如下图，是一个多层神经网络的简单示意图：
这里写图片描述
给定一个前馈神经网络，我们用下面的记号来描述这个网络：
$L$ ：表示神经网络的层数；
$n^l$ ：表示第 $l$ 层神经元的个数；
$f_l(\bullet)$ ：表示 $l$ 层神经元的激活函数；
$W^l\in R^{n^l\times n^{l-1}}$ ：表示 $l-1$ 层到第 $l$ 层的权重矩阵；
$b^l\in R^{n^l}$ ：表示 $l-1$ 层到 $l$ 层的偏置；
$z^l\in R^{n^l}$ ：表示第 $l$ 层神经元的输入；
$a^l\in R^{n^l}$ ：表示第 $l$ 层神经元的输出；

前馈神经网络通过如下的公式进行信息传播：

z l = W l \cdot a l - 1 + b l a l = f l (z l)

$z^l=W^l \cdot a^{l-1}+b^l \\ a^l=f_l(z^l)$ 上述两个公式可以合并写成如下形式：

z l = W l \cdot f l (z l - 1) + b l

$z^l=W^l \cdot f_l(z^{l-1})+b^l$ 这样通过一层一层的信息传递，可以得到网络的最后输出

y $y$ 为：

x = a 0 \to z 1 \to a 1 \to z 1 \to \dots \to a L - 1 \to z L \to a L = y

$x=a^0\rightarrow z^1\rightarrow a^1\rightarrow z^1\rightarrow \cdots \rightarrow a^{L-1} \rightarrow z^L \rightarrow a^L=y$

反向传播算法

在了解前馈神经网络的结构之后，我们一前馈神经网络的信息传递过程为基础，从而推到反向传播算法。首先要明确一点，反向传播算法是为了更好更快的训练前馈神经网络，得到神经网络每一层的权重参数和偏置参数。
在推导反向传播的理论之前，首先看一幅能够直观的反映反向传播过程的图，这个图取材于Principles of training multi-layer neural network using backpropagation。如果图中看不清可以去源地址看。
这里写图片描述

给定一组样本 $(x_i,y_i),1\leq i \leq N$ ，使用前馈神经网络,其输出为 $f(x|W,b)$ ，而求解 $W$ 和 $b$ 时，将其看成一个优化问题，优化问题的目标函数为：

J (W, b) = \sum i = 1 N L (y i, f (x i | W, b)) + 1 2 λ | | w | | 2 = \sum i = 1 N J (W, b; x i, y i) + 1 2 λ | | w | | 2

$\begin{aligned}J(W,b)&=\sum _{i=1}^NL(y_i,f(x_i|W,b))+\frac{1}{2}\lambda||w||^2 \\ & =\sum_{i=1}^N J(W,b;x_i,y_i)+\frac{1}{2}\lambda ||w||^2\end{aligned}$ 这里

W $W$ 和

b $b$ 包含了每一层的权重矩阵和偏置向量，

||w||2=∑Ll=1∑nl+1j=1∑nli=1Wlij $||w||^2=\sum _{l=1}^L\sum_{j=1}^{n^{l+1}}\sum _{i=1}^{n^l}W_{ij}^l$ 。
我们的目标是最小化

J(W,b;x,y) $J(W,b;x,y)$ ，采用梯度下降法，我们可以用如下方法更新参数：

W l = W l - α \partial J ( W , b ) \partial W l = W l - α \sum i = 1 N \partial J ( W , b ; x i , y i ) \partial W l + α λ W

$\begin{aligned} W^l &= W^l-\alpha \frac{\partial J(W,b)}{\partial W^l}\\& =W^l-\alpha \sum_{i=1}^N \frac{\partial J(W,b;x_i,y_i)}{\partial W^l} +\alpha \lambda W \end{aligned}$

b l = b l - α \partial J ( W , b ) \partial b l = b l - α \sum i = 1 N \partial J ( W , b ; x i , y i ) \partial b l

$\begin{aligned} b^l \hspace{0.7cm}&= \hspace{0.5cm}b^l-\alpha \frac{\partial J(W,b)}{\partial b^l}\\& =\hspace{0.5cm}b^l-\alpha \sum_{i=1}^N \frac{\partial J(W,b;x_i,y_i)}{\partial b^l} \end{aligned}$ 上述更新参数的公式中，重点是如何计算

∂J(W,b;xi,yi)∂Wl $\frac{\partial J(W,b;x_i,y_i)}{\partial W^l}$ 和

∂J(W,b;xi,yi)∂bl $\frac{\partial J(W,b;x_i,y_i)}{\partial b^l}$ 。
这里首先计算

∂J(W,b;xi,yi)∂Wl $\frac{\partial J(W,b;x_i,y_i)}{\partial W^l}$ ，根据链式法则

∂J(W,b;xi,yi)∂Wl $\frac{\partial J(W,b;x_i,y_i)}{\partial W^l}$ 可以写成如下形式（这里是反向传播算法的核心之处）：

\partial J ( W , b ; x , y ) \partial W l i j = t r ⎛ ⎝ (\partial J ( W , b ; x , y ) \partial z l) T \partial z l \partial W l i j ⎞ ⎠

$\frac{\partial J(W,b;x,y)}{\partial W_{ij}^l}=tr\left ( \left(\frac{\partial J(W,b;x,y)}{\partial z^l}\right)^T\frac{\partial z^l}{\partial W_{ij}^l}\right)$ 这里，我们将

∂J(W,b;x,y)∂zl $\frac{\partial J(W,b;x,y)}{\partial z^l}$ 定义为

δl $\delta ^l$ ，是目标函数关于第

l $l$ 层神经元的偏导数，用来表示第

l $l$ 层的神经元对最终误差的影响。
现在上述公式中的

∂J(W,b;x,y)∂zl $\frac{\partial J(W,b;x,y)}{\partial z^l}$ 用

δl $\delta ^l$ 来表示，第二项中的

zl=Wl⋅al−1+bl $z^l=W^l\cdot a^{l-1}+b^l$ ,所以：

\partial z l \partial W l i j = \partial ( W l \cdot a l - 1 + b l ) \partial W l i j = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0 ⋮ a (l - 1) j ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \leftarrow 第 i 行

$\frac{\partial z^l}{\partial W_{ij}^l}=\frac{\partial \left(W^l\cdot a^{l-1}+b^l\right)}{\partial W_{ij}^l}= \begin{bmatrix}0\\ \vdots \\ a_j^{(l-1)}\\\vdots \\0\end{bmatrix}\leftarrow第i行$ 所以前面要求的

∂J(W,b;x,y)∂Wlij $\frac{\partial J(W,b;x,y)}{\partial W_{ij}^l}$ 对应的结果表达为：

\partial J ( W , b ; x , y ) \partial W l i j = δ l i a (l - 1) j

$\frac{\partial J(W,b;x,y)}{\partial W_{ij}^l}=\delta _i^l a_j^{(l-1)}$
所以梯度下降法中的：

\partial J ( W , b ; x , y ) \partial W l = δ l (a (l - 1)) T

$\frac{\partial J(W,b;x,y)}{\partial W^l}=\delta ^l(a^{(l-1)})^T$
同理，

\partial J ( W , b ; x , y ) \partial b l = δ l

$\frac{\partial J(W,b;x,y)}{\partial b^l}=\delta ^l$
上述的所有推导得到的结果是将梯度下降法中的表达式用误差项

δl $\delta ^l$ 来表示，下面就要看看

δl $\delta ^l$ 的具体求解方法。
这里

δl $\delta ^l$ 的求解也要用到求导中的链式法则，整个反向传播算法的核心就是两个链式法则的运用，因此这里

δl $\delta ^l$ 的求解也是重中之重。

δ l = \partial J ( W , b ; x , y ) \partial z l (δ 的 定 义) = \partial a l \partial z l \cdot \partial z ( l + 1 ) \partial a l \cdot \partial J ( W , b ; x , y ) \partial z ( l + 1 ) （ 链 式 法 则 ） = d i a g (f' l (z l)) \cdot (W (l + 1)) T \cdot δ (l + 1) = f' l (z l) ⊙ (W (l + 1)) T δ (l + 1)

$\begin{aligned}\delta ^l &=\frac{\partial J( W,b;x,y)}{\partial z^l} (\delta 的定义) \\ &=\frac{\partial a^l}{\partial z^l}\cdot\frac{\partial z^{(l+1)}}{\partial a^l}\cdot\frac{\partial J(W,b;x,y)}{\partial z^{(l+1)}}（链式法则）\\ &=diag(f_l^{'}(z^l))\cdot (W^{(l+1)})^T\cdot \delta^{(l+1)}\\ &=f_l^{'}(z^l)\odot(W^{(l+1)})^T\delta^{(l+1)} \end{aligned}$ 现在分析上述链式法则中三项结果的由来：
对于第一项

∂al∂zl $\frac{\partial a^l}{\partial z^l}$ ，因为

al=fl(zl) $a^l=f_l(z^l)$ ，而

fl(⋅) $f_l(\cdot)$ 是按位计算的函数，因此：

\partial a l \partial z l = \partial f l ( z l ) \partial z l = d i a g (f' l (z l))

$\frac{\partial a^l}{\partial z^l}=\frac{\partial f_l(z^l)}{\partial z^l}=diag(f_l^{'}(z^l))$
对于第二项

∂z(l+1)∂al $\frac{\partial z^{(l+1)}}{\partial a^l}$ ，

z(l+1)=W(l+1)⋅al+bl $z^{(l+1)}=W^{(l+1)}\cdot a^l+b^l$ ，所以

\partial z ( l + 1 ) \partial a l = (W (l + 1)) T

$\frac{\partial z^{(l+1)}}{\partial a^l}=(W^{(l+1)})^T$
至此，从上述公式可以看出，第

l $l$ 层的误差项

δl $\delta ^l$ 可以通过第

l+1 $l+1$ 层的误差项计算得到。这就是误差反向传播的真谛。而反向传播算法的含义是：第l层的一个神经元的误差项是所有与该神经元相连的第l+1层的神经元的误差项的权重和，再乘上该神经元的激活函数的梯度。

在计算每一层的误差项之后，我们就计算每一层的梯度了。所以神经网络的训练过程可以分为如下三步：1、首先前馈计算每一层的状态和激活值，直到最后一层；2、反向传播计算每一层的误差；3、计算每一层参数的偏导数，并更新参数。

反向传播算法（back propagation）

前馈神经网络

反向传播算法

猜你喜欢