3.1 神经网络表示

如图是一个两层神经网络结构示意图：

reminder: 注意两层之间参数的维度。

输入层和隐藏层之间：
$w^{[1]}\rightarrow[4,3]：$ 4个隐藏层神经元，3个输入层神经元；
$b^{[1]}\rightarrow[4, 1]：$ 和隐藏层神经元个数相同。
隐藏层和输出层之间：
$w^{[2]}\rightarrow[1,4]：$ 1个输出层神经元，4个隐藏层神经元；
$b^{[2]}\rightarrow[1,1]：$ 和输出层神经元个数相同。

总结： 神经网络中，以相邻两层为观测对象，前面一层作为输入，后面一层作为输出，两层之间的w参数大小为 $(n_{out},n_{in})$ ，这里是从 $z=wX+b$ 的线性关系来说的，在神经网络中， $w^{[i]}=w^{T}$ 。logistic regression中，一般用 $(n_{in},n_{out})$ 来表示参数矩阵大小，计算公式使用： $z=w^Tx+b$ 。

3.2 计算神经网络输出

隐藏层计算过程：
其中，每个结点对应z和a运算两个部分。编程中我们使用向量化计算神经网络的输出：

在图中所示的神经网络结构，用python代码实现右边的四个公式即可实现神经网络的输出计算。

3.3 向量化实现

m个训练样本的神经网络中，向量化计算神经网络输出可以避免使用for循环，提高计算速度。

单个样本时神经网络计算输出过程：
m个训练样本时，对每个样本重复计算过程，得到相同大小和结构的输出，利用向量化思想将样本合并到一个矩阵，大小为 $(n_x，m)$ ， $x_n$ 表示单个样本的维度或输入网络的神经元个数。（此处可以结合上面提到的w参数的维度变化思考，每层网络中参数的维度）。

图中矩阵Z和A，纵向表示不同的神经元，横向表示m个样本。
举例说明向量化的正确性：
recap：

3.4 激活函数

几种激活函数比较：

sigmoid函数： $a=\frac{1}{1+e^{-z}}$ $a'=a(1-a)$
tanh函数： $a=\frac{e^z-e^{-z}}{e^z+e^{-z}}$ $a'=1-a^2$
ReLU函数： $a=max(0, z)$
Leaky ReLU函数： $a=max(0.001z, z)$

激活函数选择：

隐藏层：tanh函数的表现要好于sigmoid函数，因为tanh取值范围为 $[-1,+1]$ ，输出分布在0值的附近，均值为0，从隐藏层到输出层数据起到了归一化（均值为0）的效果。
输出层：对于二分类任务的输出取值为 $\{0,1\}$ ，故一般会选择sigmoid函数。然而sigmoid和tanh函数在当 |z| 很大的时候，梯度会很小，在依据梯度的算法中，更新在后期会变得很慢。在实际应用中，要使 $|z|$ 尽可能的落在0值附近。
ReLU弥补了前两者的缺陷，当 $z>0$ 时，梯度始终为1，从而提高神经网络基于梯度算法的运算速度。然而当 $z<0$ 时，梯度一直为0，但是实际的运用中，该缺陷的影响不是很大。
Leaky ReLU保证在 $z<0$ 的时候，梯度仍然不为0。

在选择激活函数的时候，如果在不知道该选什么的时候就选择ReLU，当然也没有固定答案，要依据实际问题在交叉验证集合中进行验证分析。

为什么需要非线性激活函数：

如果隐藏层用线性激活函数，那么神经网络只是把输入线性组合再输出，层数再多都只是线性组合，所以不如直接去掉所有隐藏层。
回归问题的输出层有些会用线性激活函数。

3.5 激活函数的导数

如图为本节中的浅层神经网络结构。

浅层神经网络
符号说明：

参数： $W^{[1]},b^{[1]},W^{[2]},b^{[2]}$ ；
输入层特征向量个数： $n_x=n^0$ ；
隐藏层神经元个数： $n^{[1]}$ ；
输出层神经元个数： $n^{[2]}=1$ ；
$W^{[1]}$ 维度 $(n^{[1]},n^{[0]})$ ， $b^{[1]}$ 维度 $(n^{[1]},1)$ ；
$W^{[2]}$ 维度 $(n^{[2]},n^{[1]})$ ， $b^{[2]}$ 维度 $(n^{[2]},1)$ ；

反向传播计算公式及其向量化实现： 反向传播计算过程

3.6 随机初始化

如果在初始时，两个隐藏神经元的参数设置为相同的大小，那么两个隐藏神经元对输出单元的影响也是相同的，通过反向梯度下降去进行计算的时候，会得到同样的梯度大小，所以在经过多次迭代后，两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元，其最终的影响都是相同的，那么多个隐藏神经元就没有了意义。

在初始化的时候， W 参数要进行随机初始化， b 则不存在对称性的问题它可以设置为0。以2个输入，2个隐藏神经元为例：

	W = np.random.rand((2,2))* 0.01
	b = np.zero((2,1))

这里我们将W的值乘以0.01是为了尽可能使得权重W初始化为较小的值，这是因为如果使用sigmoid函数或者tanh函数作为激活函数时，W比较小，则 $Z = WX+b $所得的值也比较小，处在0的附近，0点区域的附近梯度较大，能够大大提高算法的更新速度。而如果W设置的太大的话，得到的梯度较小，训练过程因此会变得很慢。

ReLU和Leaky ReLU作为激活函数时，不存在这种问题，因为在大于0的时候，梯度均为1。

参考资料：

[1] 博客：https://blog.csdn.net/koala_tree/article/details/78059952
[2] 网易云 Andrew Ng 深度学习课程

博文内容全部来自参考资料，非创作，仅为学习。

01.神经网络和深度学习——week3 浅层神经网络