反向传播(Back Propagation)

在利用梯度下降法对神经网络权重等参数进行训练时，需要利用反向传播去计算损失函数对权重参数的偏导数。

反向传播

下面分析是如何反向传播的(分析时不考虑偏置项)，
在这里插入图片描述

参考上图，
① 对于一个神经元 $j$ ，它的输出被定义为，
$O_j = \varphi(net_j)=\varphi(\sum_{k=1}^N w_{kj}O_k) \tag{1.1}$
其中, $w_{kj}$ 表示神经元 $k$ 到 $j$ 之间的权重， $O_k$ 是上一层神经元的输出。 $\varphi$ 为激活函数，这里取为 $logistic$ 函数，
$\varphi(z)=\frac{1}{1+ e^{-z} } \tag{1.2}$
$logistic$ 函数的求导公式为，
$\dfrac {d\varphi \left( z\right) }{dz}=\varphi\left( z\right) \left( 1-\varphi\left( z\right) \right) \tag{1.3}$
② 损失函数定义为，
$E=\dfrac {1}{2}\left( t-y\right) ^{2} \tag{1.4}$
其中， $y$ 为输出层的输出， $t$ 为期望输出。

考虑 $w_{kj}$ 对于 $E$ 的影响，是 $O_j$ 间接影响的，因此可得下面的公式(这里假设 $j$ 前一层神经元为 $i$ ，即求对 $w_{ij}$ 的偏导数)，
$\dfrac {\partial E}{\partial w_{ij}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_{j}}{\partial net_{j}}\dfrac {\partial net_{j}}{\partial w_{ij}} \tag{1.5}$
其中，后两个偏导数可以直接求出， $\frac{\partial O_{j}}{\partial net_{j}}$ 参考公式 ${1.3}$ ， $\dfrac {\partial net_{j}}{\partial w_{ij}}=O_i$ 。但是此时， $\dfrac{\partial E}{\partial {O_j}}$ ，依然无法求出。不过如果 $j$ 是输出层，因为 $O_j=y$ ，此时可求出 $E$ 对 $O_j$ 的偏导数，
$\dfrac {\partial E}{\partial O_{j}}=\dfrac {\partial E}{\partial y}=\dfrac {\partial }{\partial y}\dfrac {1}{2}\left( t-y\right) ^{2}=y-t \tag{1.6}$
下面就到了最关键的一步，此时对于非输出层，我们无法直接求出 $\frac{\partial E}{\partial {O_j}}$ ，考虑将 $O_j$ 对 $E$ 的作用向 $j$ 的下一层迭代，我们把 $E$ 考虑成一个输入由 $L=u,v \dots,w$ 这些神经元组成的函数， $O_j$ 是 $u,v,w$ 这些神经元的输入， $O_j$ 直接构成了对 $net_u,net_v,net_w$ 的影响。
$\dfrac {\partial E\left( O_{j}\right) }{\partial O_{j}}=\dfrac {\partial E\left( net_u,net_v,\ldots ,net_{w}\right) }{\partial O_{j}} \tag{1.7}$
利用全微分形式，可以获取到一个递归方程，
$\dfrac {\partial E}{\partial O_{j}}=\sum _{l\in L}\left( \dfrac {\partial E}{\partial net_{l}}\dfrac {\partial net_{l}}{\partial O_j}\right) =\sum _{l\in L}\left( \dfrac {\partial E}{\partial O_l}\dfrac {\partial O_l}{\partial net_l}w_{jl}\right) \tag{1.8}$

通过递归方程，我们可以从输出层开始对需要求的偏导数进行递归，因此得名反向传播。

一个例子

下面以一个简单的网络来对上面的反向传播结果进行验证，如下图所示，
在这里插入图片描述
$\dfrac {\partial E}{\partial w_{j-1,j}}=\dfrac {\partial E}{\partial O_j}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial w_{j-1,j}} \tag{1.9}$

其中，上式 $\dfrac {\partial E}{\partial O_j}=\dfrac {\partial E}{\partial y}$ ，三项偏导数都可求出。接着求 $\dfrac {\partial E}{\partial w_{j-2,j-1}}$ ，

$\dfrac {\partial E}{\partial w_{j-2,j-1}}=\dfrac {\partial E}{\partial O_{j-1}}\dfrac {\partial O_{j-1}}{\partial net_{j-1}}\dfrac {\partial net_{j-1}}{\partial w_{j-2,j-1}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial O_{j-1}}\dfrac {\partial O_{j-1}}{\partial net_{j-1}}\dfrac {\partial net_{j-1}}{\partial w_{j-2,j-1}} \tag{1.10}$

在上式中， $\dfrac {\partial E}{\partial O_{j-1}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial O_{j-1}}$ ，求 $\dfrac {\partial E}{\partial O_{j-1}}$ 时先求出 $E$ 对上一层的 $O_j$ 的偏导数 $\dfrac {\partial E}{\partial O_{j}}$ ，公式(1.10)和(1.8)完全对应，上述过程充分体现了链式法则。