再探反向传播算法（推导）

之前也写过关于反向传播算法中几个公式的推导，最近总被人问到其中推导的细节，发现之前写的内容某在些地方很牵强，很突兀，没有一步一步紧跟逻辑(我也不准备修正，因为它也代表了一种思考方式)。这两天又重新回顾了一下反向传播算法，所有就再次来说说反向传播算法。这篇博文的目的在于要交代清楚为什么要引入反向传播算法，以及为什么它叫反向传播。

1.从前（正）向传播谈起

在谈反向传播算法之前，我们先来简单回顾一下正向传播（详细版戳此处）。假设有如下网络结构：
这里写图片描述

其中：

\begin{aligned} L & = 神经网络总共包含的层数 \\ S_{l} & = 第 l 层的神经元数目 \\ K & = 输出层的神经元数，亦即分类的数目 \\ w_{i j}^{l} & = 第 l 层 第 j 个 神 经 元 与 第 l + 1 层 第 i 个 神 经 元 之 间 的 权 重 值 \end{aligned}

$\begin{align*} L &= \mbox{神经网络总共包含的层数} \\ S_l &= \mbox{第$l$层的神经元数目} \\ K &= \mbox{输出层的神经元数，亦即分类的数目}\\ w_{ij}^l&=第l层第j个神经元与第l+1层第i个神经元之间的权重值 \end{align*}$

即对如上网络结构来说, $L=3,s_1=3,s_2=2,s_3=K=2$ ， $a^l_i$ 表示第 $l$ 层第 $i$ 个神经元的激活值， $b^l$ 表示第 $l$ 层的偏置。

则有如下正向传播过程：

\begin{aligned} z_{1}^{2} & = a_{1}^{1} w_{11}^{1} + a_{2}^{1} w_{12}^{1} + a_{3}^{1} w_{13}^{1} + b^{1} \\ z_{2}^{2} & = a_{1}^{1} w_{21}^{1} + a_{2}^{1} w_{22}^{1} + a_{3}^{1} w_{23}^{1} + b^{1} \\ ⟹ [\begin{matrix} z_{1}^{2} \\ z_{2}^{2} \end{matrix}] = {[\begin{matrix} w_{11}^{1} & w_{12}^{1} & w_{13}^{1} \\ w_{21}^{1} & w_{22}^{1} & w_{23}^{1} \end{matrix}]}_{2 \times 3} \times {[\begin{matrix} a_{1}^{1} \\ a_{2}^{1} \\ a_{3}^{1} \end{matrix}]}_{3 \times 1} + [\begin{matrix} b^{1} \\ b^{1} \end{matrix}] \\ ⟹ z^{2} = a^{1} w^{1} + b^{1} ⟹ a^{2} = f (z^{2}) \\ ⟹ z^{3} = a^{2} w^{2} + b^{2} ⟹ a^{3} = f (z^{3}) \end{aligned}

$\begin{align*} z^2_1&=a_1^1w^1_{11}+a^1_2w^1_{12}+a^1_3w^1_{13}+b^1\\ z^2_2&=a_1^1w^1_{21}+a^1_2w^1_{22}+a^1_3w^1_{23}+b^1\\ &\implies \begin{bmatrix}z^2_1\\ z^2_2\end{bmatrix}=\begin{bmatrix}w^1_{11}&w^1_{12}&w^1_{13}\\w^1_{21}&w^1_{22}&w^1_{23}\end{bmatrix}_{2\times3}\times\begin{bmatrix}a^1_1\\ a^1_2\\a^1_3\end{bmatrix}_{3\times1}+\begin{bmatrix}b^1\\ b^1\end{bmatrix}\\ &\implies z^2=a^1w^1+b^1\implies a^2=f(z^2)\\ &\implies z^3=a^2w^2+b^2\implies a^3=f(z^3)\\ \end{align*}$

所以可以得出正向传播过程几个公式：

\begin{aligned} (1) & z_{i}^{l + 1} = a_{1}^{l} w_{i 1}^{l} + a_{2}^{l} w_{i 2}^{l} + \dots + a_{S_{l}}^{l} w_{i S_{l}}^{l} + b^{l} \\ (2) & z^{l + 1} = a^{l} w^{l} + b^{l} \\ (3) & a^{l} = f (z^{l}) \end{aligned}

$\begin{align*} &z^{l+1}_i=a^l_1w^l_{i1}+a^l_2w^l_{i2}+\cdots+a^l_{S_l}w^l_{iS_l}+b^l\tag 1\\[1ex] &z^{l+1}=a^lw^l+b^l\tag 2\\[1ex] &a^l=f(z^l)\tag 3 \end{align*}$

其中， $f()$ 表示激活函数，如sigmoid函数。

现在我们已经知道了正向传播的过程，也就是说当我们训练得到参数 $w$ 之后，就可以用正向传播通过网络来预测了。但是大家有没有想过，参数 $w$ 是怎么训练得到的？那第一反应肯定是运用梯度下降算法。既然是用梯度下降算法来求解参数，那第一步当然就是求解梯度了。

2.求解梯度

为了方便阅读，在这个位置再插入一张上面同样的网络结结构图：

这里写图片描述

此时，我们假设网络的目标函数为误差平方函数，且暂时不管正则化，同时只考虑一个样本即：

J = \frac{1}{2} (h_{w, b} (x) - y)^{2}

$J=\frac{1}{2}(h_{w,b}(x)-y)^2$

且此处 $h_{w,b}(x)=a^3$
由此，我们可以发现：如果 $J$ 对 $w^1_{11}$ 求导，则 $J$ 是关于 $a^3$ 的函数， $a^3$ 是关于 $z^3$ 的函数， $z^3$ 是关于 $a^2$ 的函数， $a^2$ 是关于 $z^2$ 的函数， $w^1_{11}$ 是关于 $z^2$ 的函数。

为了更加清晰下面的求导过程，我们先来举两个例子，看看链式求导的过程(如果熟悉链式求导规则，请直接忽略)。

例1：
假设有如下函数：

\begin{aligned} f & = s i n (t), t = x^{2}, x = 5 w \\ ⟹ \frac{\partial f}{\partial w} & = \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w} = c o s (t) \cdot 2 x \cdot 5 \\ = c o s (x^{2}) \cdot 2 x \cdot 5 = c o s (25 w^{2}) \cdot 10 w \cdot 5 = 50 w c o s (25 w^{2}) \end{aligned}

$\begin{align*} f&=sin(t),t=x^2,x=5w\\[2ex] \implies\frac{\partial f}{\partial w}&=\frac{\partial f}{\partial t}\cdot\frac{\partial t}{\partial x}\cdot\frac{\partial x}{\partial w}=cos(t)\cdot2x\cdot5\\[2ex] &=cos(x^2)\cdot2x\cdot5=cos(25w^2)\cdot10w\cdot5=50wcos(25w^2) \end{align*}$

作为验证，我们直接将 $t,x$ 带入 $f$ 然后求导：

\begin{aligned} f & = s i n (x^{2}) = s i n (25 w^{2}) \\ ⟹ \frac{\partial f}{\partial w} & = c o s (25 w^{2}) \cdot 50 w = 50 w c o s (25 w^{2}) \end{aligned}

$\begin{align*} f&=sin(x^2)=sin(25w^2)\\[2ex] \implies\frac{\partial f}{\partial w}&=cos(25w^2)\cdot50w=50wcos(25w^2) \end{align*}$

例2：
我们再来看一个抽象的，没有表达式得链式求导，假设有如下函数表达式：

\begin{aligned} f & = g (t), t = ϕ (x + y), x = h (w), y = μ (w) \end{aligned}

$\begin{align*} f&=g(t),t=\phi(x+y),x=h(w),y=\mu(w)\\[2ex] \end{align*}$
则我们可以画出如下关系图：
这里写图片描述

即，

t

$t$ 是

f

$f$ 的函数，

y 和 x

$y和x$ 都是

t

$t$ 的函数，

w

$w$ 分别又都是

y 和 x

$y和x$ 的函数，也就是说我们有两条路径可以到达

w

$w$ ，所以

\begin{aligned} ⟹ \frac{\partial f}{\partial w} & = \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial y} \cdot \frac{\partial y}{\partial w} + \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w} = \frac{\partial f}{\partial t} \cdot (\frac{\partial t}{\partial y} \cdot \frac{\partial y}{\partial w} + \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w}) \end{aligned}

$\begin{align*} \implies\frac{\partial f}{\partial w}&=\frac{\partial f}{\partial t}\cdot\frac{\partial t}{\partial y}\cdot\frac{\partial y}{\partial w}+\frac{\partial f}{\partial t}\cdot\frac{\partial t}{\partial x}\cdot\frac{\partial x}{\partial w}=\frac{\partial f}{\partial t}\cdot\left(\frac{\partial t}{\partial y}\cdot\frac{\partial y}{\partial w}+\frac{\partial t}{\partial x}\cdot\frac{\partial x}{\partial w}\right) \end{align*}$

所以有：

\begin{aligned} \frac{\partial J}{\partial w_{11}^{1}} & = \frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} + \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} \\ \frac{\partial J}{\partial w_{12}^{1}} & = \frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{12}^{1}} + \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{12}^{1}} \\ ⋮ \\ \frac{\partial J}{\partial w_{22}^{2}} & = \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial w_{22}^{2}} \end{aligned}

$\begin{align*} \frac{\partial J}{\partial w^1_{11}}&=\frac{\partial J}{\partial a^3_\color{red}{1}}\cdot\frac{\partial a^3_\color{red}{1}}{\partial z^3_\color{red}{1}}\cdot\frac{\partial z^3_\color{red}{1}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\cdot\frac{\partial z^2_1}{\partial w^1_{11}}+\frac{\partial J}{\partial a^3_\color{blue}{2}}\cdot\frac{\partial a^3_\color{blue}{2}}{\partial z^3_\color{blue}{2}}\cdot\frac{\partial z^3_\color{blue}{2}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\cdot\frac{\partial z^2_1}{\partial w^1_{11}}\\[3ex] \frac{\partial J}{\partial w^1_{12}}&=\frac{\partial J}{\partial a^3_\color{red}{1}}\cdot\frac{\partial a^3_\color{red}{1}}{\partial z^3_\color{red}{1}}\cdot\frac{\partial z^3_\color{red}{1}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\cdot\frac{\partial z^2_1}{\partial w^1_{12}}+\frac{\partial J}{\partial a^3_\color{blue}{2}}\cdot\frac{\partial a^3_\color{blue}{2}}{\partial z^3_\color{blue}{2}}\cdot\frac{\partial z^3_\color{blue}{2}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\cdot\frac{\partial z^2_1}{\partial w^1_{12}}\\[3ex] &\vdots\\[3ex] \frac{\partial J}{\partial w^2_{22}}&=\frac{\partial J}{\partial a^3_2}\cdot\frac{\partial a^3_2}{\partial z^3_2}\cdot\frac{\partial z^3_2}{\partial w^2_{22}} \end{align*}$

我们可以发现，当 $J$ 对第2层的参数求导还相对不麻烦，但当 $J$ 对第1层的参数求导的时候就做了很多重复的计算；并且这还是网络相对简单的时候，要是网络相对复杂一点，这个过程简直就是难以下手。这也是为什么神经网络在一段时间发展缓慢的原因，就是因为没有一种高效的计算梯度的方式。

3.一种高效的梯度求解办法

\begin{aligned} \frac{\partial J}{\partial w_{11}^{1}} & = (\frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}}) \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} + (\frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}}) \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} \end{aligned}

$\begin{align*} \frac{\partial J}{\partial w^1_{11}}&=\left(\frac{\partial J}{\partial a^3_\color{red}{1}}\cdot\frac{\partial a^3_\color{red}{1}}{\partial z^3_\color{red}{1}}\cdot\frac{\partial z^3_\color{red}{1}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\right)\cdot\frac{\partial z^2_1}{\partial w^1_{11}}+\left(\frac{\partial J}{\partial a^3_\color{blue}{2}}\cdot\frac{\partial a^3_\color{blue}{2}}{\partial z^3_\color{blue}{2}}\cdot\frac{\partial z^3_\color{blue}{2}}{\partial a^2_1}\cdot\frac{\partial a^2}{\partial z^2_1}\right)\cdot\frac{\partial z^2_1}{\partial w^1_{11}} \end{align*}$

从上面的求导公式可以看出，不管你是从哪一条路径过来，在对 $w^1_{11}$ 求导之前都会先到达 $z^2_1$ ，即先对 $z^2_1$ 求导之后，才会有 $\frac{\partial z^2_1}{\partial w^1_{11}}$ 。也就是说，我不管你是经过什么样的路径，在对连接第 $l$ 层第j个神经元与第 $l+1$ 第 $i$ 个神经元的参数 $w^l_{ij}$ 求导之前，肯定会先对 $z^{l+1}_i$ 求导。因此，对任意参数的求导过程，可以改写为：

\begin{matrix} (4) & \frac{\partial J}{\partial w_{i j}^{l}} = \frac{\partial J}{\partial z_{i}^{l + 1}} \cdot \frac{\partial z_{i}^{l + 1}}{\partial w_{i j}^{l}} = \frac{\partial J}{\partial z_{i}^{l + 1}} \cdot a_{j}^{l} \end{matrix}

$\frac{\partial J}{\partial w^l_{ij}}=\color{red}{\frac{\partial J}{\partial z^{l+1}_i}}\cdot\frac{\partial z^{l+1}_i}{\partial w^l_{ij}}=\color{red}{\frac{\partial J}{\partial z^{l+1}_i}}\cdot a^l_j\tag 4$

例如：

\frac{\partial J}{\partial w_{11}^{1}} = \frac{\partial J}{\partial z_{1}^{1 + 1}} \cdot \frac{\partial z_{1}^{1 + 1}}{\partial w_{11}^{1}} = \frac{\partial J}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}}

$\frac{\partial J}{\partial w^1_{11}}=\frac{\partial J}{\partial z^{1+1}_1}\cdot\frac{\partial z^{1+1}_1}{\partial w^1_{11}}=\frac{\partial J}{\partial z^2_1}\cdot\frac{\partial z^2_1}{\partial w^1_{11}}$

所以，现在的问题变成了如何求解红色部分了，即：

\frac{\partial J}{\partial z_{i}^{l + 1}} = ? ? ?

$\frac{\partial J}{\partial z^{l+1}_i}=?\;?\;?$

从网络结构图可以， $J$ 对任意 $z^l_i$ 求导，求导路径必定会经过第 $l+1$ 层的所有神经元，于是有:

\begin{aligned} \frac{\partial J}{\partial z_{i}^{l}} & = \frac{\partial J}{\partial z_{1}^{l + 1}} \cdot \frac{\partial z_{1}^{l + 1}}{\partial z_{i}^{l}} + \frac{\partial J}{\partial z_{2}^{l + 1}} \cdot \frac{\partial z_{2}^{l + 1}}{\partial z_{i}^{l}} + \dots + \frac{\partial J}{\partial z_{S_{l + 1}}^{l + 1}} \cdot \frac{\partial z_{S_{l + 1}}^{l + 1}}{\partial z_{i}^{l}} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial z_{k}^{l + 1}}{\partial z_{i}^{l}} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} (a_{1}^{l} w_{k 1}^{l} + a_{2}^{l} w_{k 2}^{l} + \dots + a_{S_{l}}^{l} w_{k S_{l}}^{l} + b^{l}) \dots \dots 由 （ 1 ） 可 知 \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} \sum_{j = 1}^{S_{l}} a_{j}^{l} w_{k j}^{l} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} \sum_{j = 1}^{S_{l}} f (z_{j}^{l}) w_{k j}^{l} \\ (5) & = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} \end{aligned}

$\begin{align*} \frac{\partial J}{\partial z^l_i}&=\frac{\partial J}{\partial z^{l+1}_1}\cdot\frac{\partial z^{l+1}_1}{\partial z^l_i}+\frac{\partial J}{\partial z^{l+1}_2}\cdot\frac{\partial z^{l+1}_2}{\partial z^l_i}+\cdots+\frac{\partial J}{\partial z^{l+1}_{S_{l+1}}}\cdot\frac{\partial z^{l+1}_{S_{l+1}}}{\partial z^l_i}\\[3ex] &=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot\frac{\partial z^{l+1}_k}{\partial z^l_i}\\[3ex] &=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot\frac{\partial}{\partial z^l_i}(a^l_1w^l_{k1}+a^l_2w^l_{k2}+\cdots+a^l_{S_l}w^l_{kS_l}+b^l)\cdots\cdots由（1）可知\\[3ex] &=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot\frac{\partial}{\partial z^l_i}\sum_{j=1}^{S_l}a^l_jw^l_{kj}\\[3ex] &=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot\frac{\partial}{\partial z^l_i}\sum_{j=1}^{S_l}f(z^l_j)w^l_{kj}\\[3ex] &=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot f'(z^l_\color{red}{i})w^l_{k\color{red}{i}}\tag 5\\[3ex] \end{align*}$

于是我们得到：

\begin{matrix} (6) & \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} \end{matrix}

$\frac{\partial J}{\partial z^l_i}=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot f'(z^l_i)w^l_{ki}\tag 6$

因此

\frac{\partial J}{\partial z_{i}^{l + 1}} = \sum_{k = 1}^{S_{l + 2}} \frac{\partial J}{\partial z_{k}^{l + 2}} \cdot f^{'} (z_{i}^{l + 1}) w_{k i}^{l + 1}

$\frac{\partial J}{\partial z^{l+1}_i}=\sum_{k=1}^{S_{l+2}}\frac{\partial J}{\partial z^{l+2}_k}\cdot f'(z^{l+1}_i)w^{l+1}_{ki}$

为了便于书写和观察规律，我们引入一个中间变量 $\delta^l_i=\frac{\partial J}{\partial z^l_i}$ ，则(5)得：

\begin{matrix} (7) & δ_{i}^{l} = \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} δ_{k}^{l + 1} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} (l <= L - 1) \end{matrix}

$\delta^l_i=\frac{\partial J}{\partial z^l_i}=\sum_{k=1}^{S_{l+1}}\delta^{l+1}_k\cdot f'(z^l_i)w^l_{ki}(l<=L-1)\tag 7$

注：之所以要 $l<=L-1$ ，是因为由（5）得推导过程可知， $l$ 最大只能取到 $L-1$ ，第L层后面没有网络层了。

所以：

\begin{aligned} δ_{i}^{L} & = \frac{\partial J}{\partial z_{i}^{L}} = \frac{\partial}{\partial z_{i}^{L}} [\frac{1}{2} \sum_{k = 1}^{S_{L}} (h_{k} (x) - y_{k})^{2}] \\ = \frac{\partial}{\partial z_{i}^{L}} [\frac{1}{2} \sum_{k = 1}^{S_{L}} (f (z_{k}^{L}) - y_{k})^{2}] \\ = [f (z_{i}^{L}) - y_{i}] \cdot f^{'} (z_{i}^{L}) \\ (8) & = [a_{i}^{L} - y_{i}] \cdot f^{'} (z_{i}^{L}) \end{aligned}

$\begin{align*} \delta^{L}_i&=\frac{\partial J}{\partial z^L_{i}}=\frac{\partial }{\partial z^L_{i}}[\frac{1}{2}\sum_{k=1}^{S_L}(h_k(x)-y_k)^2]\\[ 3ex] &=\frac{\partial }{\partial z^L_{i}}[\frac{1}{2}\sum_{k=1}^{S_L}(f(z_k^L)-y_k)^2]\\[ 3ex] &=[f(z^L_i)-y_i]\cdot f'(z^L_i)\\[2ex] &=[a^L_i-y_i]\cdot f'(z^L_i)\tag 8 \end{align*}$

同时将(7)带入(4)可知：

\begin{matrix} (9) & \frac{\partial J}{\partial w_{i j}^{l}} = δ_{i}^{l + 1} \cdot a_{j}^{l} \end{matrix}

$\frac{\partial J}{\partial w^l_{ij}}=\delta^{l+1}_i\cdot a^l_j\tag 9$

通过上面的所有推导，我们可以得到如下3个公式：

\begin{aligned} \frac{\partial J}{\partial w_{i j}^{l}} = δ_{i}^{l + 1} \cdot a_{j}^{l} \\ δ_{i}^{l} = \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} δ_{k}^{l + 1} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} (0 < l \leq L - 1) \\ δ_{i}^{L} = [a_{i}^{L} - y_{i}] \cdot f^{'} (z_{i}^{L}) \end{aligned}

$\begin{align*} &\frac{\partial J}{\partial w^l_{ij}}=\delta^{l+1}_i\cdot a^l_j\\[3ex] &\delta^l_i=\frac{\partial J}{\partial z^l_i}=\sum_{k=1}^{S_{l+1}}\delta^{l+1}_k\cdot f'(z^l_i)w^l_{ki}(0<l\leq L-1)\\[3ex] &\delta^L_i=[a^L_i-y_i]\cdot f'(z^L_i) \end{align*}$

且经过适量化后为：

\begin{aligned} (10) & \frac{\partial J}{\partial w^{l}} = δ^{l + 1} \cdot (a^{l})^{T} \\ (11) & δ^{l} = (w^{l})^{T} \cdot δ^{l + 1} * f^{'} (z^{l}) \\ (12) & δ^{L} = [a^{L} - y] * f^{'} (z^{L}) \end{aligned}

$\begin{align*} &\frac{\partial J}{\partial w^l}=\delta^{l+1}\cdot (a^l)^T\tag {10}\\[3ex] &\delta^l=(w^l)^T\cdot\delta^{l+1}*f^{\prime}(z^l)\tag {11}\\[3ex] &\delta^{L}=[a^L-y]*f^{\prime}\tag {12}(z^L) \end{align*}$
符号

\cdot

$\cdot$ 表示矩阵乘法；符号

*

$*$ 表示两个矩阵相同位置的元素对应相乘

由(10)(11)(12)分析可知，欲求 $J$ 对 $w^l$ 的导数，必先知道 $\delta^{l+1}$ ；而欲知 $\delta^{l+1}$ ，必先求 $\delta^{l+2}$ ，以此类推……
由此可知对于整个求导过程，一定是先求 $\delta^L$ ，再求 $\delta^{L-1}$ ，一直到 $\delta^{2}$

为了方便阅读，在这个位置再插入一张上面同样的网络结结构图：

这里写图片描述

对于这样一个网络结构，整个求导过程（不含 $b^l$ ）如下：

\begin{aligned} S t e p 1 : δ^{3} = [a^{3} - y] * f^{'} (z^{3}) \\ S t e p 2 : \frac{\partial J}{\partial w^{2}} = δ^{3} \cdot (a^{2})^{T} \\ S t e p 3 : δ^{2} = (w^{2})^{T} \cdot δ^{3} * f^{'} (z^{2}) \\ S t e p 4 : \frac{\partial J}{\partial w^{1}} = δ^{2} \cdot (a^{1})^{T} \end{aligned}

$\begin{align*} &Step1: \delta^{3}=[a^3-y]*f^{\prime}(z^3)\\[2ex] &Step2: \frac{\partial J}{\partial \color{red}{w^2}}=\delta^{3}\cdot(a^2)^T\\[2ex] &Step3: \delta^2=(w^2)^T\cdot\delta^{3}*f^{\prime}(z^2)\\[2ex] &Step4: \frac{\partial J}{\partial \color{red}{w^1}}=\delta^{2}\cdot(a^1)^T \end{align*}$

于是我们终于发现了这么一个不争的事实：
1.最先求解出导数的参数一定位于第 $L-1$ 层上(如此处的 $w^2$ )；
2.要想求解第 $l$ 层参数的导数，一定会用到第 $l+1$ 层上的中间变量 $\delta^{l+1}$ (如此处求解 $w^1$ 的导数，用到了 $\delta^2$ );
3.整个过程是从后往前的；

所以，该过程被形象的称为反向（后向）传播算法。
另： $\delta^l$ 被称为第 $l$ 层的“残差”

一个重要的结论：
反向传播算法是用来求解梯度的！

反向传播算法是用来求解梯度的！

重要的话说三遍，因为不少人总是把梯度下降和反向传播两个搞得稀里糊涂的。

4.总结

通过举例对平方误差目标函数反向传播算算法公式的推导，我们可以总结出更为一般的情况，即：

\begin{aligned} (13) & \frac{\partial J}{\partial w^{l}} = δ^{l + 1} \cdot (a^{l})^{T} \\ (14) & δ^{l} = (w^{l})^{T} \cdot δ^{l + 1} * f^{'} (z^{l}) \\ (15) & δ_{i}^{L} = \frac{\partial J}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot \frac{\partial a_{i}^{L}}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot \frac{\partial f (z_{i}^{L})}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot f^{'} (z_{i}^{L}) \\ (16) & \frac{\partial J}{\partial b^{l}} = δ^{l + 1} \end{aligned}

$\begin{align*} &\frac{\partial J}{\partial w^l}=\delta^{l+1}\cdot (a^l)^T\tag {13}\\[3ex] &\delta^l=(w^l)^T\cdot\delta^{l+1}*f^{\prime}(z^l)\tag {14}\\[3ex] &\delta^{L}_i=\frac{\partial J}{\partial z^L_i}=\frac{\partial J}{\partial a^L_i}\cdot\frac{\partial a^L_i}{\partial z^L_i}=\frac{\partial J}{\partial a^L_i}\cdot\frac{\partial f(z^L_i)}{\partial z^L_i}=\frac{\partial J}{\partial a^L_i}\cdot f'(z^L_i)\tag{15}\\[3ex] &\frac{\partial J}{\partial b^l}=\delta^{l+1}\tag {16} \end{align*}$

我们可以看到，仅仅只有公式(15)才依赖于不同的目标函数；比如在交叉熵中 $\delta^{L}_i=a^L-y$ 推导戳此处.

关于反向传播算法的推导基本上可以告一段落了，下一篇我们将通过一个例子用python来实现，这样就会更清楚了。

再探反向传播算法（推导）

猜你喜欢