1.定义

$w_{kj}^l$ 表示从l-1层的第k个感知器到第l层的第j个感知器的权重

$b_j^l$ 用来表示l层第j个感知器的偏置项， $a_j^l$ 则表示l层第j个感知器的激活值(对加权后的输出值使用激活函数非线性处理，激活函数会作用于每一个感知器上也就是不仅仅是最后一个输出)
则有

a_{j}^{l} = \sum_{k} w_{k j}^{l} a_{j}^{l - 1} + b_{j}^{l}

$a_j^l = \sum_{k} w_{kj}^la_j^{l-1} + b_j^l$
向量化表示：

w^{l}

$w^l$ 为权重矩阵，

b^{l}

$b^l$ 为偏置矩阵，

a^{l}

$a^l$ 为激活值矩阵，

z^{l}

$z^l$ 为加权输入矩阵则有:

z^{l} = w^{l} a^{l - 1} + b^{l}

$z^l = w^la^{l-1}+b^l$

a^{l} = σ (z^{l}) = σ (w^{l} a^{l - 1} + b^{l})

$a^l = \sigma(z^l)=\sigma(w^la^{l-1}+b^l)$
值得注意的是

z^{l}

$z^l$ 由

z_{j}^{l} = \sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}

$z^l_j=\sum_kw^l_{jk}a^{l−1}_k+b^l_j$ 组成，这就是说，

z_{j}^{l}

$z^l_j$ 就是第 l层第 j个感知器激活函数的加权输入。
定义l层第j个感知器的错误量

δ_{j}^{l}

$\delta^l_j$ 为：

δ_{j}^{l} = \frac{\partial C}{\partial z_{j}^{l}}

$\delta^l_j=\frac{\partial C}{\partial z^l_j}$
定义中的错误量都是对加权输出的偏导并不是对激活值得偏导

2.基本公式

公式证明连接：1，2，3
本文用到的公式编辑方式：
公式编辑1，公式编辑2，公式编辑3