参考了若干blog文章，整理了BP算法的过程如下。

1网络参数

1.1网络结构

三层网络结构，输入层具有三个节点，隐含层也是三个节点，输出层两个节点。
在这里插入图片描述节点也即为神经元，具有对各个连接线上的数据进行求和，并进行非线性变换（激活函数 $f$ ）的作用。

用上标 $l$ 代表层数， $l = i, h, o$ 分别代表输入层、隐含层和输出层，下标代表同一层中神经元的序号；
在这里插入图片描述
$net^l_i$ 、 $out^l_i$ 分别代表第 $l$ 层的第个 $i$ 神经元的输入和输出。

1.2参数初始化

采用如下的网络结构：
在这里插入图片描述
输入： $x = [0.05, 0.10]$
理论输出： $y = [0.01, 0.99]$
权重: $w^h= \left[ \begin{array}{ccc} w^h_{11} & w^h_{12} \\\\ w^h_{21} & w^h_{22} \\ \end{array} \right] =\left[ \begin{array}{ccc} 0.15 & 0.25 \\\\ 0.20 & 0.30 \\ \end{array} \right]$

$w^o= \left[ \begin{array}{ccc} w^o_{11} & w^o_{12} \\\\ w^o_{21} & w^o_{22} \\ \end{array} \right] =\left[ \begin{array}{ccc} 0.40 & 0.50 \\\\ 0.45 & 0.55\\ \end{array} \right]$

偏置:

$b^h= \left[ \begin{array}{ccc} b^h_{1}\\\\ b^h_{2} \\ \end{array} \right] =\left[ \begin{array}{ccc} 0.35 \\\\ 0.35\\ \end{array} \right]$
$b^o= \left[ \begin{array}{ccc} b^o_{1}\\\\ b^o_{2} \\ \end{array} \right] =\left[ \begin{array}{ccc} 0.60 \\\\ 0.60\\ \end{array} \right]$
激活函数采用sigmoid函数：
$f(x)=\frac{1}{1+e^{-x}}$
对其求导： $f (x)^{'} = f (x) * (1 - f (x))$
损失函数(loss function）,也即误差函数,设其为 $g (*)$ ：
采用平方差均值函数： $E=g(out^o)=\frac{1}{2}{\sum(y-out^o)^2}$ 对其求导: $g(out^o_i)'=-(y-out^o_i)$

学习率： $\eta = 0.5$

1.3前馈网络（feedforward）

输入层

$out^i_1=net^i_1=x_1=0.05,\\out^i_2=net^i_2=x_2=0.10$

隐藏层

（1）输入：
$net^h_i=\sum(w^h_{ji}*x_j)+b^h_i$
（2）输出：
$out^h_i=f(net^h_i)$

输出层

（1）输入：
$net^o_i=\sum(w^{o}_{ji}*out^h_j+b^o_i)$
（2）输出：
$out^h_i=f(net^h_i)$

1.4 误差反向传输（backpropagation）

反向传输是为了通过梯度下降的方法来更新权重参数：
$w^l_{ji}=w^l_{ji}-\eta\frac{\partial E}{\partial w^l_{ji}}$ $b^l_i =b^l_i-\eta\frac{\partial E}{\partial b^l_{i}}$
采用链式法则，其中
对于输出层有：
$\frac{\partial net^o_i }{\partial w^o_{ji}} = \frac{\partial \sum(w^o_{ji}*out^h_j)+b^o_i}{\partial w^o_{ji}} = out^h_j$ $\frac{\partial net^o_i }{\partial b^o_{i}}=\frac{\partial \sum(w^o_{ji}*out^h_j)+b^o_i}{\partial b^o_{i}}=1$
对于隐含层有：
$\frac{\partial net^h_i }{\partial w^h_{ji}} = \frac{\partial \sum(w^h_{ji}*out^i_j)+b^h_i}{\partial w^h_{ji}} = out^i_j=net^i_j=x_j$ $\frac{\partial net^h_i }{\partial b^h_{i}}=\frac{\partial \sum(w^h_{ji}*out^i_j)+b^h_i}{\partial b^h_{i}}=1$
可得：

(1)对 $w^o_{ji}$ 进行求偏导

$\frac{\partial E}{\partial w^o_{ji}}=\frac{\partial E}{\partial out^o_i}\frac{\partial out^o_i}{\partial net^o_i}\frac{\partial net^o_i}{\partial w^o_{ji}}$ $=g(x)'|_{x=out^o_i}f(x)'|_{x=net^o_{i}}out^h_j$

(2)对 $b^o_{i}$ 进行求偏导

$\frac{\partial E}{\partial b^o_{i}}=\frac{\partial E}{\partial out^o_i}\frac{\partial out^o_i}{\partial net^b_i}\frac{\partial net^o_i}{\partial w^o_{ji}}\\ =g(x)'|_{x=out^o_i}f(x)'|_{x=net^o_{i}}$

(3)对 $w^h_{ji}$ 进行求偏导

$\frac{\partial E}{\partial w^h_{ji}}=\frac{\partial E}{\partial out^h_i}\frac{\partial out^h_i}{\partial net^h_i}\frac{\partial net^h_i}{\partial w^h_{ji}}$ $=\frac{\partial E}{\partial out^h_i}f(x)'|_{x=net^h_{i}}out^i_j$

其中 $\frac{\partial E}{\partial out^h_i}=\sum^{N_h}_{n=1}\frac{\partial E}{\partial out^o_n}\frac{\partial out^o_n}{\partial net^o_n}\frac{\partial net^o_n}{\partial out^h_i }$

$out^i_j=net^i_j=x_j$

其中 $\frac{\partial E}{\partial out^o_n}= g(x)'|_{x=out^o_n}$

$\frac{\partial out^o_n}{\partial net^o_n} = f(x)'|_{x=net^o_{n}}$

$\frac{\partial net^o_n}{\partial out^h_i }={\frac{\partial \sum^{N_h}_{m=1}(w^o_{mn}*out^h_m)+b^o_n}{\partial out^h_{i}}}=w^o_{in}$

于是 $\frac{\partial E}{\partial w^h_{ji}}=\sum^{N_h}_{n=1}[g(x)'|_{x=out^o_n}\ f(x)'|_{x=net^o_{n}}\ w^o_{in}] f(x)'|_{x=net^h_{i}}\ out^i_j$
其中 $N_h$ 为 $h$ 层(hidden，隐藏层)的神经元节点的个数。

(4)对 $b^h_{i}$ 进行求偏导

$\frac{\partial E}{\partial b^h_i} =\frac{\partial E}{\partial out^h_i}\frac{\partial out^h_i}{\partial net^h_i}\frac{\partial net^h_i}{\partial b^h_i}$
参考（3）可得：
$\frac{\partial E}{\partial b^n_i}= \sum^{N_h}_{n=1}[g(x)'|_{x=out^o_n}\ f(x)'|_{x=net^o_{n}}\ w^o_{in}] f(x)'|_{x=net^h_{i}}$
考虑到同一层的权重与偏置的导数的相似之处，整理得：
$\frac{\partial E}{\partial w^o_{ji}}= \delta^o_{i}out^h_j$

$\frac{\partial E}{\partial b^o_{i}}= \delta^o_i$

$\frac{\partial E}{\partial w^h_{ji}}=\delta^h_{i}out^i_j\ = \delta^h_{i}x_j$

$\frac{\partial E}{\partial b^o_{i}}= \delta^h_i$ 其中的 $\delta^h_i、\delta^o_i$ 分别是隐含层和输出层的误差项：

$\delta^o_i=g(x)'|_{x=out^o_i}f(x)'|_{x=net^o_{i}}$

$\delta^h_i= \sum^{N_h}_{n=1}[g(x)'|_{x=out^o_n}\ f(x)'|_{x=net^o_{n}}\ w^o_{in}] f(x)'|_{x=net^h_{i}}$ 由上述两个公式可得： $\delta^h_i=\sum^{N_h}_{n=1}[\delta^o_n\ w^o_{in}]f(x)'|_{x=net^h_{i}}$
可知，隐含层的误差项为输出层的误差项与两层之间的权重的乘积的求和，再乘以在该节点输入处的激活函数的导数。
当有多个隐含层时，也具有相同的特点，即： $l$ 层的误差项 $\delta^l$ 与 $l + 1$ 层的误差项 $\delta^{l+1}$ 之间有如下关系： $\delta^l_i=\sum^{N_l}_{n=1}[\delta^{l+1}_nw^{l+1}_{in}]f(x)'|_{x=net^l_i}$

代入本案例的网络中的误差函数和激活函数，到此便可对权重和偏置进行更新：
$w^o_{ji} = w^o_{ji} - \eta\frac{\partial E}{\partial w^o_{ji}}$

$b^o_{i} = b^o_{i} - \eta\frac{\partial E}{\partial b^o_{i}}$

$w^h_{ji} = w^h_{ji} - \eta\frac{\partial E}{\partial w^h_{ji}}$

$b^o_{i} = b^o_{i} - \eta\frac{\partial E}{\partial b^o_{i}}$
参考：
1.【1】【深度学习】神经网络入门（最通俗的理解神经网络）2018-01-06 这个转自3
【2】这个贴的标签是原创2019-05-11
【3】这个已经失效
2
【1】cnblog，Alex，BP神经网络推导过程详解，
3 【1】csdn,磐创 AI,一文彻底搞懂BP算法：原理推导+数据演示+项目实战（上篇）

神经网络BP算法整理（1）

1网络参数

1.1网络结构

1.2参数初始化

1.3前馈网络（feedforward）

输入层

隐藏层

输出层

1.4 误差反向传输（backpropagation）

(1)对 $w^o_{ji}$ 进行求偏导

(2)对 $b^o_{i}$ 进行求偏导

(3)对 $w^h_{ji}$ 进行求偏导

(4)对 $b^h_{i}$ 进行求偏导

猜你喜欢

神经网络BP算法整理（1）

1网络参数

1.1网络结构

1.2参数初始化

1.3前馈网络（feedforward）

输入层

隐藏层

输出层

1.4 误差反向传输（backpropagation）

(1)对 w j i o w^o_{ji} wjio​进行求偏导

(2)对 b i o b^o_{i} bio​进行求偏导

(3)对 w j i h w^h_{ji} wjih​进行求偏导

(4)对 b i h b^h_{i} bih​进行求偏导

猜你喜欢

(1)对 $w^o_{ji}$ 进行求偏导

(2)对 $b^o_{i}$ 进行求偏导

(3)对 $w^h_{ji}$ 进行求偏导

(4)对 $b^h_{i}$ 进行求偏导