BP神经网络-总结

转载请注明出处：http://blog.csdn.net/tyhj_sf/article/details/54983858

声明：
（1）该博文为个人学习总结，部分内容（包括数学公式）是来自书籍及网上的资料。具体引用的资料请看参考文献。具体的版本声明也参考原文献。
（2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应，更有些部分本来就是直接从其他博客摘录过来的。如果某部分不小心侵犯了大家的版权，还望海涵，并联系本人删除或修改。

BP网络的学习算法

本文将以如下所示形式的多隐藏层网络结构为例分析BP神经。
这里写图片描述
BP网络学习算法的实质是使网络输出总误差函数E的达到最小，因此这是一个优化问题，BP算法具体就是采用“最速下降法”使总误差函数尽量达到最小。
这句话涉及到2个问题：
1.输出总误差函数的取值与网络的n个输入数据x1,x2…xn及网络所有的m个权值W1,W2…Wm有关，即误差函数=f(x1,x2…xn,W1,W2…Wm)。
2.最速下降法，即梯度下降算法，使权值调整量与误差的梯度下降成正比。就是说调整后权值使下次迭代计算的误差沿各权值的梯度方向是下降的，那么输出总误差是趋于减少的。此法可使网络输出误差达到局部极小，但是不能保证达到全局最小。

梯度下降算法

有关梯度下降算法的通俗理解，请参阅：http://www.jianshu.com/p/905a55b1b744

分类

1. BGD(Batch gradient descent)批量梯度下降法：每次迭代使用所有的样本
每次迭代都需要把所有样本都送入，这样的好处是每次迭代都顾及了全部的样本，做的是全局最优化。需要注意的是权值的调整公式为wi(t)=wi(t-1)+ηΣ(δi*oi)/m+momentumΔwi(t-1), m为样本数，与SGD的权值调整公式是不一样的。
优点：降低了样本噪声对训练过程的影响，全局最优解；易于并行实现；。
缺点：如果面对数量巨大的样本量（如40万个），采取这种训练方式，所耗费的时间会非常长。
2. SGD（Stochastic gradient descent）随机梯度下降法：每次迭代随机使用一个样本
针对BGD算法训练速度过慢的缺点，提出了SGD算法，普通的BGD算法是每次迭代把所有样本都过一遍，每训练一个样本就把梯度更新一次。而SGD算法是从样本中随机抽出一个，训练后按梯度更新一次，然后再抽取一个，再更新一次，在样本量及其大的情况下，可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
权值的调整公式为wi(t)=wi(t-1)+ηδi*oi+momentumΔwi(t-1), m为样本数。
优点：训练速度快；
缺点：准确度下降，并不是全局最优；不易于并行实现。
3. MBGD（Mini-batch gradient descent）小批量梯度下降：每次迭代使用b个样本
SGD相对来说要快很多，但是也有存在问题，由于单个样本的训练可能会带来很多噪声，使得SGD并不是每次迭代都向着整体最优化方向，因此在刚开始训练时可能收敛得很快，但是训练一段时间后就会变得很慢。在此基础上又提出了小批量梯度下降法，它是每次从样本中随机抽取一小批进行训练，而不是一组。

公式推导

假设我们有一个固定样本集 $\textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}$ ，它包含 $\textstyle m$ 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例 $\textstyle (x,y)$ ，其误差函数（又称为损失函数）为：

J (W, b; x, y) = 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2 .

$J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.$

这是一个（二分之一的）方差型误差函数。给定一个包含 $\textstyle m$ 个样例的数据集，我们可以定义整体误差函数为：

$\begin{align} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\ &= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align}$

以上关于 $\textstyle J(W,b)$ 定义中的第一项是一个均方差项。第二项是一个规则化项（也叫”’权重衰减项”’），其目的是减小权重的幅度，防止过度拟合。

[注：通常权重衰减的计算并不使用偏置项 $\textstyle b^{(l)}_i$ ，比如我们在 $\textstyle J(W, b)$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229（机器学习）课程，你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。]

权重衰减参数 $\textstyle \lambda$ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义： $\textstyle J(W,b;x,y)$ 是针对单个样例计算得到的方差误差函数； $\textstyle J(W,b)$ 是整体样本误差函数，它包含权重衰减项。

以上的误差函数经常被用于分类和回归问题。在分类问题中，我们用 $\textstyle y = 0$ 或 $\textstyle 1$ ，来代表两种类型的标签（回想一下，这是因为 sigmoid激活函数的值域为 $\textstyle [0,1]$ ；如果我们使用双曲正切型激活函数，那么应该选用 $\textstyle -1$ 和 $\textstyle +1$ 作为标签）。对于回归问题，我们首先要变换输出值域（译者注：也就是 $\textstyle y$ ），以保证其范围为 $\textstyle [0,1]$ （同样地，如果我们使用双曲正切型激活函数，要使输出值域为 $\textstyle [-1,1]$ ）。

我们的目标是针对参数 $\textstyle W$ 和 $\textstyle b$ 来求其函数 $\textstyle J(W,b)$ 的最小值。为了求解神经网络，我们需要将每一个参数 $\textstyle W^{(l)}_{ij}$ 和 $\textstyle b^{(l)}_i$ 初始化为一个很小的、接近零的随机值（比如说，使用正态分布 $\textstyle {Normal}(0,\epsilon^2)$ 生成的随机值，其中 $\textstyle \epsilon$ 设置为 $\textstyle 0.01$ ），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 $\textstyle J(W, b)$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。
在实际应用中，要将参数进行随机初始化，而不是全部置为 $\textstyle 0$ 。如果所有参数都用相同的值作为初始值，那么所有隐藏层神经元节点最终会得到与输入值有关的、相同的函数（也就是说，对于所有 $\textstyle i$ ， $\textstyle W^{(1)}_{ij}$ 都会取相同的值，那么对于任何输入 $\textstyle x$ 都会有： $\textstyle a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ ）。随机初始化的目的是使”’对称失效”’。

梯度下降法中每一次迭代都按照如下公式对参数 $\textstyle W$ 和 $\textstyle b$ 进行更新：

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align}$

其中 $\textstyle \alpha$ 是学习速率，即学习步长。其中关键步骤是计算偏导数。现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。

反向传播算法

有关bp算法的通俗理解，请参阅：http://www.open-open.com/lib/view/open1441541390219.html
现在以批量梯度下降算法的输出整体误差函数为例，来讲一下如何使用反向传播算法来计算 $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$ ，这两项是单个样例 $\textstyle (x,y)$ 的误差函数 $\textstyle J(W,b;x,y)$ 的偏导数。一旦我们求出该偏导数，就可以推导出整体误差函数 $\textstyle J(W,b)$ 的偏导数：

$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}$

以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于 $\textstyle W$ 而不是 $\textstyle b$ 。

反向传播算法的思路如下：给定一个样例 $\textstyle (x,y)$ ，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $\textstyle h_{W,b}(x)$ 的输出值。之后，针对第 $\textstyle l$ 层的每一个节点 $\textstyle i$ ，我们计算出其“残差” $\textstyle \delta^{(l)}_i$ ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $\textstyle \delta^{(n_l)}_i$ （第 $\textstyle n_l$ 层表示输出层）。对于隐藏神经元节点我们如何处理呢？我们将基于节点（注：第 $\textstyle l+1$ 层节点）残差的加权平均值计算 $\textstyle \delta^{(l)}_i$ ，这些节点以 $\textstyle a^{(l)}_i$ 作为输入。下面将给出反向传导算法的细节：

进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$ 直到输出层 $\textstyle L_{n_l}$ 的激活值。
对于第 $\textstyle n_l$ 层（输出层）的每个输出神经元节点 $\textstyle i$ ，我们根据以下公式计算残差（又称误差信号）： $δ (n l) i = \partial \partial z ( n l ) i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = - (y i - a (n l) i) \cdot f' (z (n l) i)$ $\begin{align} \delta^{(n_l)}_i = \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$ [推导过程： $δ (n l) i = \partial \partial z n l i J (W, b; x, y) = \partial \partial z n l i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - f (z (n l) j)) 2 = - (y i - f (z (n l) i)) \cdot f' (z (n l) i) = - (y i - a (n l) i) \cdot f' (z (n l) i)$ $\begin{align} \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$ ]
对于第 $\textstyle n_l-1$ 层（输出层）的每个输出神经元节点 $\textstyle i$ ，我们根据以下公式计算残差： $δ (n l - 1) i = ⎛ ⎝ \sum j = 1 S n l W n l - 1 j i δ (n l) j ⎞ ⎠ f' (z n l - 1 i)$ $\delta^{(n_l-1)}_i = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1})$ [推导过程： $δ (n l - 1) i = \partial \partial z n l - 1 i J (W, b; x, y) = \partial \partial z n l - 1 i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l - 1 i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - f (z (n l) j)) 2 = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot \partial \partial z ( n l - 1 ) i f (z (n l) j) = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot f' (z (n l) j) \cdot \partial z ( n l ) j \partial z ( n l - 1 ) i = \sum j = 1 S n l δ (n l) j \cdot \partial z ( n l ) j \partial z n l - 1 i = \sum j = 1 S n l ⎛ ⎝ δ (n l) j \cdot \partial \partial z n l - 1 i \sum k = 1 S n l - 1 f (z n l - 1 k) \cdot W n l - 1 j k ⎞ ⎠ = \sum j = 1 S n l δ (n l) j \cdot W n l - 1 j i \cdot f' (z n l - 1 i) = ⎛ ⎝ \sum j = 1 S n l W n l - 1 j i δ (n l) j ⎞ ⎠ f' (z n l - 1 i)$ $\begin{align} \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) \end{align}$ 将上式中的 $\textstyle n_l-1$ 与 $\textstyle n_l$ 的关系替换为 $\textstyle l$ 与 $\textstyle l+1$ 的关系，对 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各个层，第 $\textstyle l$ 层的第 $\textstyle i$ 个节点的残差计算方法如下： $δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)$ $\begin{align} \delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i) \end{align}$ 以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]
计算我们需要的偏导数，计算方法如下： $\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align}$

实现中应注意：在以上的第2步和第3步中，我们需要为每一个 $\textstyle i$ 值计算其 $\textstyle f'(z^{(l)}_i)$ 。假设 $\textstyle f(z)$ 是sigmoid函数，并且我们已经在前向传导运算中得到了 $\textstyle a^{(l)}_i$ 。那么，使用我们早先推导出的 $\textstyle f'(z)$ 表达式，就可以计算得到 $\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$ 。

最后，我们用矩阵-向量表示法重写以上算法。（对矩阵不熟悉的同学可自行略过。但是是此表示法使用相当频繁，建议学学线性代数。）
我们使用“ $\textstyle \bullet$ ” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若 $\textstyle a = b \bullet c$ ，则 $\textstyle a_i = b_ic_i$ 。在上一个教程中我们扩展了 $\textstyle f(\cdot)$ 的定义，使其包含向量运算，这里我们也对偏导数 $\textstyle f'(\cdot)$ 也做了同样的处理（于是又有 $\textstyle f'([z_1, z_2, z_3]) = [f'(z_1), f'(z_2), f'(z_3)]$ ）。

那么，反向传播算法可表示为以下几个步骤：

进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$ 直到输出层 $\textstyle L_{n_l}$ 的激活值。
对输出层（第 $\textstyle n_l$ 层），计算： $\begin{align} \delta^{(n_l)} = - (y - a^{(n_l)}) \bullet f’(z^{(n_l)}) \end{align}$
对于 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各层，计算： $\begin{align} \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f’(z^{(l)}) \end{align}$
计算最终需要的偏导数值： $\begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \end{align}$
更新权值： $\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \nabla_{W^{(l)}} J(W,b;x,y) &\\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha\nabla_{b^{(l)}} J(W,b;x,y) & \end{align}$

现在，我们可以重复梯度下降法的迭代步骤来减小误差函数 $\textstyle J(W,b)$ 的值，进而求解我们的神经网络。

BP网络结构设计

输入量处理

通常输入变量无法直接获得或者不宜直接使用，需要进行一定的处理，常用方法有：数据归一化、傅里叶变换、小波变换、PCA进行降维。

隐藏层数的确定

单隐层的前馈网络可以映射所有的连续函数，只有当需要学习不连续函数时（如锯齿波等）才需要2个隐层。所以bp网络最多只需要2个隐层即可学习所有的函数。一般设计网络结构时，先用一个隐层，当网络性能达不到要求时再考虑增加一个隐层。

权值调整相关参数的设置

学习速率，即学习步长，范围在0.001~10之间。
如果权值参数调整时加入了阻尼项，则动量系数通常设置为0~0.9之间。

隐层节点数设计经验

1.隐层节点数必须小于N-1（其中N为训练样本数），否则，网络模型的系统误差与训练样本的特性无关而趋于零，即建立的网络模型过拟合没有泛化能力，也没有任何实用价值。同理可推得：输入层的节点数（变量数）必须小于N-1。
2.训练样本数必须多于网络模型的连接权数，一般为2~10倍，否则，样本必须分成几部分并采用“轮流训练”的方法才可能得到可靠的神经网络模型。
3.常用的确定隐层节点数的经验公式如下：
这里写图片描述

模型泛化能力的考虑

权值的总数体现了网络的信息容量，它决定了网络的逼近能力。参数太少则不足以表达样本润涵的规律，参数太多将陡增计算复杂度。
训练样本数p、给定的训练误差e,网络参数总数n之间满足的经验关系为：
p=n/e

参考资料

1.http://www.cnblogs.com/maybe2030/p/5089753.html?utm_source=tuicool&utm_medium=referral.
2.反向传导算法.
3.停下来思考下神经网络
4.BGD、SGD、MBGD详解