第二章反向传播算法如何工作

反向传播算法实质上是一种计算梯度的快速算法。

2.1神经网络中的矩阵计算

我们首先规定一下网络中权重w和偏置b的表示方法。 $w^l_{jk}$ 表示从 $(l-1)^{th}$ 层的第k个神经元到第 $l^{th}$ 层第j个神经元的权重。同样，用 $b^l_j$ 表示第 $l^{th}$ 第j个神经元的偏执，用 $a^l_j$ 表示第 $l^{th}$ 层的第j个神经元的激活函数值。如下图所示。

权重的表示：

偏置和激活值的表示：

那么，我们计算第 $l^{th}$ 层的第j个神经元的激活值 $a^l_j$ 由下面的公式求得：

我们对每一层 $l$ 都定义一个权重矩阵 $w^l$ ，其中权重矩阵 $w^l$ 中第j行第k列的元素为 $w^l_{jk}$ 。定义一个偏置向量 $b^l$ ，每一个元素是 $b^l_j$ ，表示这一层上第j个神经元的偏置值。定义一个激活值向量 $a^l$ ，每一个元素是 $a^l_j$ ，表示这一层上的第j个神经元的激活值。则运用矩阵乘法，以上公式可以重新写为：

扫描二维码关注公众号，回复： 10818292 查看本文章

更具体的，将上式展开得：

我们引入中间量

称 $z^l$ 为第 $l$ 层的带权输入。

2.2代价函数的两个假设

第一个假设：代价函数可以看作是训练集中每个训练样本x所产生的代价函数 $C_x$ 的均值 $C=1/n \sum_xC_x$ ，每一个训练样本产生的代价函数 $C_x=1/2||y-a^L||^2$ 。

第二个假设：代价函数是神经网络的权重w和偏置b的函数。

2.3Hadamard乘积

向量按位相乘 s ⊙ t

2.4反向传播的四个基本方程

首先给出这四个方程，下面对四个方程进行解释及推导。

反向传播的根本含义是要计算偏导数 $\partial C/\partial w^l_{jk}$ 和 $\partial C/\partial b^l_j$ ，为了计算对权重和偏置的偏导数，反向传播算法的核心就在于此，就是引入一个中间量 ${\delta}^l_j$ ，表示第 $l$ 层的第j个神经元的误差。