本节主要是介绍神经网络的反向传播算法。
深度学习中文讲义

1、代价函数（Cost function）

令k为输出层的个数，当k>=3时，使用多元表达。所以，神经网络的代价函数一般形式，需要对k个输出求和，如下
在这里插入图片描述
注意到正则化项，由j=1开始，因为类似 $x_0$ 之类的项，通常都不做正则化。

2、选择神经网络框架

1、输入和输出都是确定的。
2、一般采用一个隐藏层，如果有多个隐藏层，其维度一般一样多。
3、隐藏单元和隐藏层越多越好，但是计算量变大。

3、随机初始化

随机初始化权重，不能为了0，也不能一样。
比如一般可以使用在0附近正态分布的值 $\mathcal{N}(0,0.1)$
在实践中，会有一种比随机值初始化更好的方法。叫做Xavier/He 初始化，对权重(weights)进行的初始化如下
在这里插入图片描述

4、前向传播（forward propagation）

1、从左至右，一步一步，计算所有 $h_{\Theta}(x^{(i)}$
2、计算代价函数 $J(\Theta)$ n

5、反向传播（back propagation）

由前面计算的 $h_{\Theta}(x^{(i)}$ ，与 $y^{(i)}$ 之间的差误差 $\delta^{(i)}$
然后一步一步从右往左反向计算所有的 $\delta$ ： $\delta^{(3)}$ 、 $\delta^{(2)}$ ，不计算 $\delta^{(1)}$

$\delta^{(4)}=a^{(4)}-y$
$\delta^{(3)}=(\Theta^{(3)})\delta^{(4)}. *g'(z^{(3)})$ 其中 $g'(z^{(3)})=a^{(3)}. *(1-a^{(3)})$
$\delta^{(2)}=(\Theta^{(2)})\delta^{(3)}. *g'(z^{(2)})$ 其中 $g'(z^{(2)})=a^{(2)}. *(1-a^{(2)})$

而， $\frac{\partial }{\partial \Theta_ij^{(l)}}J(\Theta)=a_j^{(l)}\delta_i^{(l+1)}$
写成向量的形式是：
例如： $\frac{\partial }{\partial \Theta^{(4)}}J(\Theta)=a^{(3)}\delta^{(4)}=(a^{(4)}-y)(a^{(3)})^T$
在这里插入图片描述