注意：前方警告来袭：如有看到大量数学公式和文字说明而感到恶心、反胃甚至呕吐的人还请绕行，此篇博客不适合你们，此篇博客是写给那些能懂得欣赏数学与公式之美的人看的，能认认真真看完这篇博客，读懂每一个公式，看懂每一个推导过程，那么就一定会对BP原理有一个根本性的认识，只有这样，作为一名程序猿，才能一个人在黑屋子里敲出对应功能的代码！！！

一、单层单连接

考虑以下两个单连接神经元：
两层单连接神经元
根据上图可得如下公式推导：
$n_{1}=w_{1}a_{0}\quad \quad \quad \quad\quad n_{2}=w_{2}a_{1}$
$a_{1}=f_{1}(n_{1})\quad\quad\quad\quad\quad a=a_{2}=f_{2}(n_{2})$
$E=E[(t-a)^2]=E(n_{1},n_{2})=E(w_{1},w_{2})$
此处用 $E$ 表示代价函数，物理意义为均方误差值， $t$ 表示训练样本所对应的目标值， $a$ 为最终的输出， $E$ 中 $t$ 为已知值，故其为 $a$ 的函数，又有前可知 $a$ 为 $n_{2}$ 的函数， $n_{2}$ 为 $a_{1}$ 的函数， $a_{1}$ 为 $n_{1}$ 的函数，如果将 $w_{2}$ 看着常数，则 $a$ 为 $n_{1}$ 、 $n_{2}$ 的函数，所以 $E$ 同时也可以表示为 $n_{1}$ 、 $n_{2}$ 的函数，同理也可以表示为 $w_{1}$ 、 $w_{2}$ 的函数。机器学习的目的就是通过调整参数 $w$ 使 $E$ 最小，为使后面求导方便，同样可以将 $E$ 表示成如下：

E \approx (t - a)^{2}

$E\approx (t-a)^2$
已知

E

$E$ 为

w_{1}

$w_{1}$ 、

w_{2}

$w_{2}$ 的函数，为使

E

$E$ 取值最小，可通过梯度下降法对

w_{1}

$w_{1}$ 、

w_{2}

$w_{2}$ 更新，更新过程如下：

w_{1} (k + 1) = w_{1} (k) - α \cdot \frac{\partial E}{\partial w_{1}} w_{2} (k + 1) = w_{2} (k) - α \cdot \frac{\partial E}{\partial w_{2}}

$w_{1}(k+1)=w_{1}(k)-\alpha\cdot\frac{\partial E}{\partial w_{1}}\\ w_{2}(k+1)=w_{2}(k)-\alpha\cdot\frac{\partial E}{\partial w_{2}}$
其中

α

$\alpha$ 为梯度更新步长，也称为学习率，可由人为设定。
已知

E = E [(t - a)^{2}] = E (n_{1}, n_{2}) = E (w_{1}, w_{2})

$E=E[(t-a)^2]=E(n_{1},n_{2})=E(w_{1},w_{2})$

n_{1} = w_{1} a_{0} n_{2} = w_{2} a_{1}

$n_{1}=w_{1}a_{0}\quad \quad \quad \quad\quad\quad \quad\quad n_{2}=w_{2}a_{1}$
根据求导链式法则可得:

\frac{\partial E}{\partial w_{1}} = \frac{\partial E}{\partial n_{1}} \cdot \frac{\partial n_{1}}{\partial w_{1}}

$\frac{\partial E}{\partial w_{1}}=\frac{\partial E}{\partial n_{1}}\cdot\frac{\partial n_{1}}{\partial w_{1}}$

\frac{\partial E}{\partial w_{2}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial w_{2}}

$\frac{\partial E}{\partial w_{2}}=\frac{\partial E}{\partial n_{2}}\cdot\frac{\partial n_{2}}{\partial w_{2}}$
其中

\frac{\partial n_{1}}{\partial w_{1}} = \frac{\partial (w_{1} a_{0})}{\partial w_{1}} = a_{0}

$\frac{\partial n_{1}}{\partial w_{1}}=\frac{\partial(w_{1}a_{0})}{\partial w_{1}}=a_{0}$

\frac{\partial n_{2}}{\partial w_{2}} = \frac{\partial (w_{2} a_{1})}{\partial w_{2}} = a_{1}

$\frac{\partial n_{2}}{\partial w_{2}}=\frac{\partial(w_{2}a_{1})}{\partial w_{2}}=a_{1}$
令

\frac{\partial E}{\partial n_{1}} = s_{1}

$\frac{\partial E}{\partial n_{1}}=s_{1}$

\frac{\partial E}{\partial n_{2}} = s_{2}

$\frac{\partial E}{\partial n_{2}}=s_{2}$
为敏感系数，后面会通过公式计算该系数，将以上公式合并可得如下公式：

\frac{\partial E}{\partial w_{1}} = \frac{\partial E}{\partial n_{1}} \cdot \frac{\partial n_{1}}{\partial w_{1}} = s_{1} \cdot a_{0}

$\frac{\partial E}{\partial w_{1}}=\frac{\partial E}{\partial n_{1}}\cdot\frac{\partial n_{1}}{\partial w_{1}}=s_{1}\cdot a_{0}$

\frac{\partial E}{\partial w_{2}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial w_{2}} = s_{2} \cdot a_{1}

$\frac{\partial E}{\partial w_{2}}=\frac{\partial E}{\partial n_{2}}\cdot\frac{\partial n_{2}}{\partial w_{2}}=s_{2}\cdot a_{1}$
带入更新公式可得：

w_{1} (k + 1) = w_{1} (k) - α \cdot s_{1} \cdot a_{0} w_{2} (k + 1) = w_{2} (k) - α \cdot s_{2} \cdot a_{1}

$w_{1}(k+1)=w_{1}(k)-\alpha\cdot s_{1}\cdot a_{0}\\ w_{2}(k+1)=w_{2}(k)-\alpha\cdot s_{2}\cdot a_{1}$
该更新公式中等式右边只有敏感系数

s_{1}

$s_{1}$ 和

s_{2}

$s_{2}$ 未知，先计算

s_{1}

$s_{1}$ 、

s_{2}

$s_{2}$ 的表达式，已知

s_{1}

$s_{1}$ 、

s_{2}

$s_{2}$ 的定义式，可通过求导链式法则求出

s_{1}

$s_{1}$ 和

s_{2}

$s_{2}$ 之间的关系。

s_{1} = \frac{\partial E}{\partial n_{1}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial n_{1}} = s_{2} \cdot \frac{\partial n_{2}}{\partial n_{1}}

$s_{1}=\frac{\partial E}{\partial n_{1}}=\frac{\partial E}{\partial n_{2}}\cdot \frac{\partial n_{2}}{\partial n_{1}}=s_{2}\cdot \frac{\partial n_{2}}{\partial n_{1}}$
其中

\frac{\partial n_{2}}{\partial n_{1}} = \frac{\partial (w_{2} a_{1})}{\partial n_{1}} = w_{2} \cdot \frac{\partial a_{1}}{\partial n_{1}} = w_{2} \cdot \frac{\partial f_{1} (n_{1})}{\partial n_{1}} = w_{2} \cdot {\dot{f}}_{1} (n_{1})

$\frac{\partial n_{2}}{\partial n_{1}}=\frac{\partial (w_{2}a_{1})}{\partial n_{1}}=w_{2}\cdot \frac{\partial a_{1}}{\partial n_{1}}=w_{2}\cdot \frac{\partial f_{1}(n_{1})}{\partial n_{1}}=w_{2}\cdot \dot{f}_{1}(n_{1})$
所以

s_{1}

$s_{1}$ 与

s_{2}

$s_{2}$ 之间的关系为

s_{1} = s_{2} \cdot w_{2} \cdot {\dot{f}}_{1} (n_{1})

$s_{1}=s_{2}\cdot w_{2}\cdot \dot{f}_{1}(n_{1})$
现在

s_{1}

$s_{1}$ 可以通过

s_{2}

$s_{2}$ 表示了，也就是说到这一步只有

s_{2}

$s_{2}$ 是未知数，下面计算

s_{2}

$s_{2}$ 的表达式：由前面可知均方误差

E

$E$ 的近似表达式为：

E \approx (t - a)^{2}

$E\approx (t-a)^2$
而

\frac{\partial E}{\partial n_{2}} = s_{2}

$\frac{\partial E}{\partial n_{2}}=s_{2}$
将两者合并可得：

s_{2} = \frac{\partial E}{\partial n_{2}} = \frac{\partial (t - a)^{2}}{\partial n_{2}} = - 2 (t - a) \cdot \frac{\partial a}{\partial n_{2}} = - 2 (t - a) \cdot \frac{\partial f_{2} (n_{2})}{\partial n_{2}} = - 2 (t - a) \cdot {\dot{f}}_{2} (n_{2})

$s_{2}=\frac{\partial E}{\partial n_{2}}=\frac{\partial (t-a)^2}{\partial n_{2}}=-2(t-a)\cdot \frac{\partial a}{\partial n_{2}}\\ =-2(t-a)\cdot \frac{\partial f_{2}(n_{2})}{\partial n_{2}}=-2(t-a)\cdot \dot{f}_{2}(n_{2})$
注意到此表达式中等式的右边含有

(t - a)

$(t-a)$ 为训练模型的偏差。
至此

s_{1}

$s_{1}$ 、

s_{2}

$s_{2}$ 的计算表达式均已知。
这里写图片描述

现在重新理一下整个更新过程：
这里写图片描述

总结：BP更新过程可分为三步：

第一步：数据前向传播

这里写图片描述

第二步：误差后向传播

这里写图片描述

第三步：权重更新

这里写图片描述

二、多层多连接

要读懂这一节，必须先要对第一节有足够的理解。
因本人没有艺术细胞，不会画图，前面那个图都是复制来的，又多层网络图不好画，网上又搜索不到对应的图，所以就不贴图了，各位读者还请自行脑补，就是在第一个图上面进行扩展。下面直接列写公式：

{\begin{cases} {\vec{a}}^{0} = \vec{p} \\ {\vec{a}}^{m + 1} = {\vec{f}}^{m + 1} (W^{m + 1} {\vec{a}}^{m} + {\vec{b}}^{m + 1}) m = 0, 1, 2, . . ., M - 1 \\ \vec{a} = {\vec{a}}^{M} \end{cases}

$\begin{cases}\vec{a}^{0}=\vec{p}\\ \vec{a}^{m+1}=\vec{f}^{m+1}(W^{m+1}\vec{a}^{m}+\vec{b}^{m+1})\quad \quad \quad m=0,1,2,...,M-1\\ \vec{a}=\vec{a}^{M} \end{cases}$
代价函数(均方误差)：

\hat{F} (\vec{x}) = (\vec{t} (k) - \vec{a} (k))^{T} (\vec{t} (k) - \vec{a} (k))

$\hat{F}(\vec{x})=(\vec{t}(k)-\vec{a}(k))^{T}(\vec{t}(k)-\vec{a}(k))$
权重更新公式：
这里写图片描述

这里需要注意下标

i, j

$i,j$ 中

j

$j$ 表示前一层神经元节点下标,

i

$i$ 表示后一层神经元节点下标。
根据偏导链式法则同理可推得如下公式：
这里写图片描述

其中

表示第

m

$m$ 层第

i

$i$ 个节点的输入。该式对

w 和 b

$w和b$ 求偏导分别为：

\frac{\partial n_{i}^{m}}{\partial w_{i, j}^{m}} = a_{j}^{m - 1}

$\frac{\partial n^{m}_{i}}{\partial w^{m}_{i,j}}=a^{m-1}_{j}$

\frac{\partial n_{i}^{m}}{\partial b_{i}^{m}} = 1

$\frac{\partial n^{m}_{i}}{\partial b^{m}_{i}}=1$
同理定义敏感因子：

s_{i}^{m} = \frac{\partial \hat{F}}{\partial n_{i}^{m}}

$s^m_{i}=\frac{\partial \hat{F}}{\partial n^{m}_{i}}$
结合前面两部分公式可得权重梯度：
这里写图片描述

将其代入权重更新公式有：
这里写图片描述

该表达式只是针对求解某一个权重和偏置。
下面以向量和矩阵的方式表示一层中权重和偏置的更新公式：
第

m

$m$ 层权重用矩阵表示如下：

W^{m} = [\begin{matrix} w_{1, 1}^{m} & w_{1, 2}^{m} & \dots & w_{1, S^{m - 1}}^{m} \\ w_{2, 1}^{m} & w_{2, 2}^{m} & \dots & w_{2, S^{m - 1}}^{m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{S^{m}, 1}^{m} & w_{S^{m}, 2}^{m} & \dots & w_{S^{m}, S^{m - 1}}^{m} \end{matrix}]

$W^{m}=\left [\begin{matrix} w^{m}_{1,1}&w^{m}_{1,2}&\cdots&w^{m}_{1,S^{m-1}}\\ w^{m}_{2,1}&w^{m}_{2,2}&\cdots&w^{m}_{2,S^{m-1}}\\ \vdots &\vdots &\ddots &\vdots \\ w^{m}_{S^{m},1}&w^{m}_{S^{m},2}&\cdots&w^{m}_{S^{m},S^{m-1}} \end{matrix}\right]$
第

m

$m$ 层敏感因子向量如下：

{\vec{s}}^{m} = \frac{\partial \hat{F}}{\partial {\vec{n}}^{m}} = [\begin{matrix} \frac{\partial \hat{F}}{\partial n_{1}^{m}} \\ \frac{\partial \hat{F}}{\partial n_{2}^{m}} \\ ⋮ \\ \frac{\partial \hat{F}}{\partial n_{S^{m}}^{m}} \end{matrix}]

$\vec{s}^{m}=\frac{\partial \hat{F}}{\partial \vec{n}^{m}}= \left[\begin{matrix} \frac{\partial \hat{F}}{\partial n^{m}_{1}}\\ \frac{\partial \hat{F}}{\partial n^{m}_{2}}\\ \vdots\\ \frac{\partial \hat{F}}{\partial n^{m}_{S^{m}}} \end{matrix}\right]$
第

m - 1

$m-1$ 层输出向量如下：

{\vec{a}}^{m - 1} = [\begin{matrix} a_{1}^{m - 1} \\ a_{2}^{m - 1} \\ ⋮ \\ a_{S^{m - 1}}^{m - 1} \end{matrix}]

$\vec{a}^{m-1}= \left[\begin{matrix} a^{m-1}_{1}\\a^{m-1}_{2}\\\vdots\\a^{m-1}_{S^{m-1}} \end{matrix}\right]$
第

m

$m$ 层偏置向量如下：

{\vec{b}}^{m - 1} = [\begin{matrix} b_{1}^{m - 1} \\ b_{2}^{m - 1} \\ ⋮ \\ b_{S^{m - 1}}^{m - 1} \end{matrix}]

$\vec{b}^{m-1}= \left[\begin{matrix} b^{m-1}_{1}\\b^{m-1}_{2}\\\vdots\\b^{m-1}_{S^{m-1}} \end{matrix}\right]$
由此上述权重和偏置更新公式可统一由一下公式表示：
这里写图片描述

现在我们需要推导如下关系式：
这里写图片描述

已知

{\vec{s}}^{m} = \frac{\partial \hat{F}}{\partial {\vec{n}}^{m}} = {[\frac{\partial {\vec{n}}^{m + 1}}{\partial {\vec{n}}^{m}}]}^{T} \frac{\partial \hat{F}}{\partial {\vec{n}}^{m + 1}} = \frac{\partial {\vec{n}}^{m + 1}}{\partial {\vec{n}}^{m}} {\vec{s}}^{m + 1}

$\vec{s}^{m}=\frac{\partial \hat{F}}{\partial \vec{n}^{m}}=\left[\frac{\partial \vec{n}^{m+1}}{\partial \vec{n}^{m}}\right]^{T}\frac{\partial \hat{F}}{\partial \vec{n}^{m+1}}=\frac{\partial \vec{n}^{m+1}}{\partial \vec{n}^{m}}\vec{s}^{m+1}$
注意，这里等式右边两个微分顺序不能乱，前一个为矩阵，后一个为向量，调换顺序后则无法进行数学运算。
这里写图片描述