详解神经网络的前向传播和反向传播

本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读，有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。

　　对神经网络有些了解的人可能都知道，神经网络其实就是一个输入 $X$ 到输出 $Y$ 的映射函数： $f(X)=Y$ ，函数的系数就是我们所要训练的网络参数 $W$ ，只要函数系数确定下来，对于任何输入 $x_i$ 我们就能得到一个与之对应的输出 $y_i$ ，至于 $y_i$ 是否符合我们预期，这就属于如何提高模型性能方面的问题了，本文不做讨论。

　　那么问题来了，现在我们手中只有训练集的输入 $X$ 和输出 $Y$ ，我们应该如何调整网络参数 $W$ 使网络实际的输出 $f(X)=\hat{Y}$ 与训练集的 $Y$ 尽可能接近？

　　在开始正式讲解之前，让我们先对反向传播过程有一个直观上的印象。反向传播算法的核心是代价函数 $C$ 对网络中参数（各层的权重 $w$ 和偏置 $b$ ）的偏导表达式 $\frac{\partial{C}}{\partial{w}}$ 和 $\frac{\partial{C}}{\partial{b}}$ 。这些表达式描述了代价函数值 $C$ 随权重 $w$ 或偏置 $b$ 变化而变化的程度。到这里，BP算法的思路就很容易理解了：如果当前代价函数值距离预期值较远，那么我们通过调整 $w$ 和 $b$ 的值使新的代价函数值更接近预期值（和预期值相差越大，则 $w$ 和 $b$ 调整的幅度就越大）。一直重复该过程，直到最终的代价函数值在误差范围内，则算法停止。

　　BP算法可以告诉我们神经网络在每次迭代中，网络的参数是如何变化的，理解这个过程对于我们分析网络性能或优化过程是非常有帮助的，所以还是尽可能搞透这个点。我也是之前大致看过，然后发现看一些进阶知识还是需要BP的推导过程作为支撑，所以才重新整理出这么一篇博客。

前向传播过程

　　在开始反向传播之前，先提一下前向传播过程，即网络如何根据输入 $X$ 得到输出 $Y$ 的。这个很容易理解，粗略看一下即可，这里主要是为了统一后面的符号表达。

记 $w_{jk}^{l}$ 为第 $l-1$ 层第 $k$ 个神经元到第 $l$ 层第 $j$ 个神经元的权重， $b_j^l$ 为第 $l$ 层第 $j$ 个神经元的偏置， $a_j^l$ 为第 $l$ 层第 $j$ 个神经元的激活值（激活函数的输出）。不难看出， $a_j^l$ 的值取决于上一层神经元的激活：

\begin{matrix} (1) & a_{j}^{l} = σ (\sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}) \end{matrix}

$a_j^l=\sigma{(\sum_k{w_{jk}^l a_k^{l-1}}+b_j^l)} \tag{1}$ 将上式重写为矩阵形式：

\begin{matrix} (2) & a^{l} = σ (w^{l} a^{l - 1} + b^{l}) \end{matrix}

$a^l=\sigma{(w^l a^{l-1} +b^l)} \tag{2}$ 为了方便表示，记

z^{l} = w^{l} a^{l - 1} + b^{l}

$z^l=w^l a^{l-1} +b^l$ 为每一层的权重输入，

(2)

$(2)$ 式则变为

a^{l} = σ (z^{l})

$a^l=\sigma{(z^l)}$ 。
　　利用

(2)

$(2)$ 式一层层计算网络的激活值，最终能够根据输入

X

$X$ 得到相应的输出

\hat{Y}

$\hat Y$ 。

反向传播过程

　　反向传播过程中要计算 $\frac{\partial{C}}{\partial w}$ 和 $\frac{\partial{C}}{\partial b}$ ，我们先对代价函数做两个假设，以二次损失函数为例：

\begin{matrix} (3) & C = \frac{1}{2 n} \sum_{x} ‖ y (x) - a^{L} (x) ‖^{2} \end{matrix}

$C=\frac{1}{2n} \sum_x{\| y(x) - a^L(x)\| ^ 2} \tag{3}$ 其中

n

$n$ 为训练样本

x

$x$ 的总数，

y = y (x)

$y=y(x)$ 为期望的输出，即ground truth，

L

$L$ 为网络的层数，

a^{L} (x)

$a^L(x)$ 为网络的输出向量。
假设1：总的代价函数可以表示为单个样本的代价函数之和的平均：

\begin{matrix} (4) & C = \frac{1}{n} \sum_{x} C_{x} C_{x} = \frac{1}{2} ‖ y - a^{L} ‖^{2} \end{matrix}

$C=\frac{1}{n} \sum_x{C_x} 　　C_x=\frac{1}{2}\|y-a^L\|^2 \tag{4}$
　　这个假设的意义在于，因为反向传播过程中我们只能计算单个训练样本的

\frac{\partial C_{x}}{\partial w}

$\frac{\partial{C_x}}{\partial w}$ 和

\frac{\partial C_{x}}{\partial b}

$\frac{\partial{C_x}}{\partial b}$ ，在这个假设下，我们可以通过计算所有样本的平均来得到总体的

\frac{\partial C}{\partial w}

$\frac{\partial{C}}{\partial w}$ 和

\frac{\partial C}{\partial b}

$\frac{\partial{C}}{\partial b}$
假设2：代价函数可以表达为网络输出的函数

c o s t C = C (a^{L})

$costC=C(a^L)$ ，比如单个样本

x

$x$ 的二次代价函数可以写为：

\begin{matrix} (5) & C_{x} = \frac{1}{2} ‖ y - a^{L} ‖^{2} = \frac{1}{2} \sum_{j} (y_{j} - a_{j}^{L})^{2} \end{matrix}

$C_x=\frac{1}{2}\|y-a^L\|^2=\frac{1}{2} \sum_j{(y_j - a_j^L)^2} \tag{5}$

反向传播的四个基本方程

　　权重 $w$ 和偏置 $b$ 的改变如何影响代价函数 $C$ 是理解反向传播的关键。最终，这意味着我们需要计算出每个 $\frac{\partial{C}}{\partial w_{jk}^l}$ 和 $\frac{\partial{C}}{\partial b_j^l}$ ，在讨论基本方程之前，我们引入误差 $\delta$ 的概念， $\delta_j^l$ 表示第 $l$ 层第 $j$ 个单元的误差。关于误差的理解，《Neural Network and Deep Learning》书中给了一个比较形象的例子。

　　如上图所示，假设有个小恶魔在第 $l$ 层第 $j$ 个单元捣蛋，他让这个神经元的权重输出变化了 $\Delta z_j^l$ ，那么这个神经元的激活输出为 $\sigma(z_j^l+\Delta z_j^l)$ ，然后这个误差向后逐层传播下去，导致最终的代价函数变化了 $\frac{\partial{C}}{\partial z_j^l}\Delta z_j^l$ 。现在这个小恶魔改过自新，它想帮助我们尽可能减小代价函数的值（使网络输出更符合预期）。假设 $\frac{\partial{C}}{\partial z_j^l}$ 一开始是个很大的正值或者负值，小恶魔通过选择一个和 $\frac{\partial{C}}{\partial z_j^l}$ 方向相反的 $\Delta z_j^l$ 使代价函数更小（这就是我们熟知的梯度下降法）。随着迭代的进行， $\frac{\partial{C}}{\partial z_j^l}$ 会逐渐趋向于0，那么 $\Delta z_j^l$ 对于代价函数的改进效果就微乎其微了，这时小恶魔就一脸骄傲的告诉你：“俺已经找到了最优解了（局部最优）”。这启发我们可以用 $\frac{\partial{C}}{\partial z_j^l}$ 来衡量神经元的误差：

δ_{j}^{l} = \frac{\partial C}{\partial z_{j}^{l}}

$\delta_j^l=\frac{\partial{C}}{\partial z_j^l}$ 下面就来看看四个基本方程是怎么来的。
　　
1. 输出层的误差方程

\begin{matrix} (BP1) & δ_{j}^{L} = \frac{\partial C}{\partial z_{j}^{L}} = \frac{\partial C}{\partial a_{j}^{L}} \frac{\partial a_{j}^{L}}{\partial z_{j}^{L}} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{L}) \end{matrix}

$\delta_j^L=\frac{\partial C}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\sigma'(z_j^L) \tag{BP1}$ 如果上面的东西你看明白了，这个方程应该不难理解，等式右边第一项

\frac{\partial C}{\partial a_{j}^{L}}

$\frac{\partial C}{\partial a_j^L}$ 衡量了代价函数随网络最终输出的变化快慢，而第二项

σ^{'} (z_{j}^{L})

$\sigma'(z_j^L)$ 则衡量了激活函数输出随

z_{j}^{L}

$z_j^L$ 的变化快慢。当激活函数饱和，即

σ^{'} (z_{j}^{L}) \approx 0

$\sigma'(z_j^L)\approx0$ 时，无论

\frac{\partial C}{\partial a_{j}^{L}}

$\frac{\partial C}{\partial a_j^L}$ 多大，最终

δ_{j}^{L} \approx 0

$\delta_j^L\approx0$ ，输出神经元进入饱和区，停止学习。
　　（BP1）方程中两项都很容易计算，如果代价函数为二次代价函数

C = \frac{1}{2} \sum_{j} (y_{j} - a_{j}^{L})^{2}

$C=\frac{1}{2} \sum_j{(y_j - a_j^L)^2}$ ，则

\frac{\partial C}{\partial a_{j}^{L}} = a_{j}^{L} - y_{j}

$\frac{\partial C}{\partial a_j^L}=a_j^L-y_j$ ，同理，对激活函数

σ (z)

$\sigma(z)$ 求

z_{j}^{L}

$z_j^L$ 的偏导即可求得

σ^{'} (z_{j}^{L})

$\sigma'(z_j^L)$ 。将（BP1）重写为矩阵形式：

\begin{matrix} (BP1a) & δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{L}) \end{matrix}

$\delta^L=\nabla_aC \odot \sigma'(z^L) \tag{BP1a}$

⊙

$\odot$ 为Hadamard积，即矩阵的点积。
2. 误差传递方程

\begin{matrix} (BP2) & δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) ⊙ σ^{'} (z^{l}) \end{matrix}

$\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l) \tag{BP2}$ 这个方程说明我们可以通过第

l + 1

$l+1$ 层的误差

δ^{l + 1}

$\delta^{l+1}$ 计算第

l

$l$ 层的误差

δ^{l}

$\delta^{l}$ ，结合（BP1）和（BP2）两个方程，我们现在可以计算网络中任意一层的误差了，先计算

δ^{L}

$\delta^L$ ，然后计算

δ^{L - 1}

$\delta^{L-1}$ ，

δ^{L - 2}

$\delta^{L-2}$ ，…，直到输入层。
证明过程如下：

δ_{j}^{l} = \frac{\partial C}{\partial z_{j}^{l}} = \sum_{k} \frac{\partial C}{\partial z_{k}^{l + 1}} \frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}} = \sum_{k} δ_{k}^{l + 1} \frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}}

$\delta_j^l=\frac{\partial C}{\partial z_j^l} = \sum_k \frac{\partial C}{\partial z_k^{l+1}} \frac{\partial z_k^{l+1}}{\partial z_j^l}= \sum_k \delta_k^{l+1} \frac{\partial z_k^{l+1}}{\partial z_j^l}$ 因为

z_{k}^{l + 1} = \sum_{j} w_{k j}^{l + 1} a_{j}^{l} + b_{k}^{l + 1} = \sum_{j} w_{k j}^{l + 1} σ (z_{j}^{l}) + b_{k}^{l + 1}

$z_k^{l+1}=\sum_j{w_{kj}^{l+1}a_j^l+b_k^{l+1}}=\sum_j{w_{kj}^{l+1}\sigma{(z_j^l)}+b_k^{l+1}}$ ，所以

\frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}} = w_{k j}^{l + 1} σ^{'} (z_{j}^{l})

$\frac{\partial z_k^{l+1}}{\partial z_j^l}=w_{kj}^{l+1}\sigma'(z_j^l)$ ，因此可以得到(BP2)，

δ_{j}^{l} = \sum_{k} w_{k j}^{l + 1} δ_{k}^{l + 1} σ^{'} (z_{j}^{l})

$\delta_j^l=\sum_k w_{kj}^{l+1} \delta_k^{l+1} \sigma'(z_j^l)$
3. 代价函数对偏置的改变率

\begin{matrix} (BP3) & \frac{\partial C}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} = δ_{j}^{l} \end{matrix}

$\frac{\partial C}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}=\delta_j^l \tag{BP3}$ 这里因为

z_{j}^{l} = \sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}

$z_j^l=\sum_k{w_{jk}^l a_k^{l-1}}+b_j^l$ 所以

\frac{\partial z_{j}^{L}}{\partial b_{j}^{L}} = 1

$\frac{\partial z_j^L}{\partial b_j^L}=1$
4. 代价函数对权重的改变率

\begin{matrix} (BP4) & \frac{\partial C}{\partial w_{j k}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{L}}{\partial w_{j k}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} a_{k}^{l - 1} = a_{k}^{l - 1} δ_{j}^{l} \end{matrix}

$\frac{\partial C}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^L}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_j^l}a_k^{l-1}=a_k^{l-1}\delta_j^l \tag{BP4}$ 可以简写为

\begin{matrix} (6) & \frac{\partial C}{\partial w} = a_{i n} δ_{o u t} \end{matrix}

$\frac{\partial C}{\partial w}=a_{in}\delta_{out} \tag{6}$ ，不难发现，当上一层激活输出接近0的时候，无论返回的误差有多大，

\frac{\partial C}{\partial w}

$\frac{\partial C}{\partial w}$ 的改变都很小，这也就解释了为什么神经元饱和不利于训练。

　　从上面的推导我们不难发现，当输入神经元没有被激活，或者输出神经元处于饱和状态，权重和偏置会学习的非常慢，这不是我们想要的效果。这也说明了为什么我们平时总是说激活函数的选择非常重要。

　　当我计算得到 $\frac{\partial C}{\partial w_{jk}^l}$ 和 $\frac{\partial C}{\partial b_j^l}$ 后，就能愉悦地使用梯度下降法对参数进行一轮轮更新了，直到最后模型收敛。

反向传播为什么快

　　回答这个问题前，我们先看一下普通方法怎么求梯度。以计算权重为例，我们将代价函数看成是权重的函数 $C=C(w)$ ，假设现在网络中有100万个参数，我们可以利用微分的定义式来计算代价函数对其中某个权重 $w_j$ 的偏导：

\begin{matrix} (7) & \frac{\partial C}{\partial w_{j}} \approx \frac{C (w + ε \vec{e_{j}}) - C (w)}{ε} \end{matrix}

$\frac{\partial C}{\partial w_j}\approx\frac{C(w+\varepsilon \vec{e_j}) - C(w)}{\varepsilon} \tag{7}$ 然后我们算一下，为了计算

\frac{\partial C}{\partial w_{j}}

$\frac{\partial C}{\partial w_j}$ ，我们需要从头到尾完整进行一次前向传播才能得到最终

C (w + ε \vec{e_{j}})

$C(w+\varepsilon \vec{e_j})$ 的值，要计算100万个参数的偏导就需要前向传播100万次，而且这还只是一次迭代，想想是不是特别可怕？
　　再反观反向传播算法，如方程（BP4）所示，我们只要知道

a_{k}^{l - 1}

$a_k^{l-1}$ 和

δ_{j}^{l}

$\delta_j^l$ 就能计算出偏导

\frac{\partial C}{\partial w_{j k}^{l}}

$\frac{\partial C}{\partial w_{jk}^l}$ 。激活函数值

a_{k}^{l - 1}

$a_k^{l-1}$ 在一次前向传播后就能全部得到，然后利用(BP1）和（PB2）可以计算出

δ_{j}^{l}

$\delta_j^l$ ，反向传播和前向传播计算量相当，所以总共只需2次前向传播的计算量就能计算出所有的

\frac{\partial C}{\partial w_{j k}^{l}}

$\frac{\partial C}{\partial w_{jk}^l}$ 。这比使用微分定义式求偏导的计算量少了不止一点半点，简直是质的飞跃。