机器学习——神经网络基础

1 神经网络介绍

定义

人工神经网络（Artificial Neural Networks ），简称神经网络
- 人脑神经系统启发、早期神经科学家构造了一种模仿人脑神经系统的数学模型
- 机器学习领域的神经网络：由很多人工神经元构成的网络结构模型、人工神经元之间的连接强度是科学系的参数----学习

神经网络组成结构

神经元：人工神经网络中最小也是最重要的单元
- 一个生物神经元具有多个树突和一个轴突。树突用来接收信息，轴突用来发送信息。当神经元所获得的输入信号积累超过某个阈值时，处于兴奋状态，产生电脉冲。轴突尾端有许多末梢可以与其他神经元的树突产生连接，并将电脉冲信号传递给其他神经元
- 与生物神经系统类似，人工神经元也互相连接并具有强大的处理能力
- 人工神经网络试图复现真实大脑的行为和过程，他们的结构是基于生物学观察而建模的
- 人造神经元也是一样的，它的结构令人想起真正的神经元结构
神经元结构
- 1943年生物神经元结构 $\rightarrow$ 简单的神经元模型：MP神经元
- 每一个神经元由一个线性拟合和一个非线性激活函数组成
- 神经元都有输入连接和输出连接 $\rightarrow$ 这些连接模拟大脑中突触的行为。
- 与大脑中突触传递信号的方式相同:信号从一个神经元传递到另一个神经元，这些连接也在人造神经元之间传递信息
- 每一个连接都有权重 $\rightarrow$ 这种模式是从大脑突触得到的启发，权重实际上模拟了生物神经元之间传递的神经物质的数量

激活函数
- 激活函数是神经网络中一个至关重要的部分、其非线性使得神经网络几乎可以逼近任何非线性函数。不使用激活函数，无论神经网络多少层、其每一层输出都是上一层线性组合、即神经网络为线性模型，表达能力有限。
- 激活函数选择基本要求：连续可导、可以允许少数点上不可导。
- S型激活函数和ReLU及其变种等

$\frac {1 - e^{-2x}}{1 + e^{-2x}}$

2.ReLu及其变种（非饱和激活函数）

$\left\{ \begin{matrix} x,if ~~~x \geqslant0 \\ 0,if ~~~x<0 \end{matrix} \right.\\f(x) = \max(0,x)$

当x<0时，输出为0，而当x>0时，则保持x不变进行输出，这个特性称：单侧抑制。所以，ReLU能够在x>0时保持梯度不衰减，从而缓解梯度消失问题
单侧抑制在某些情况下可能导致某个神经元“死亡”，如果某个神经元始终输出为负、则反向传播时相应梯度为0，导致无法进行有效更新 $\rightarrow$ ReLU变种
ReLU是将所有的负值都设为零，相反，Leaky ReLU是给所有负值赋予一个非零斜率（允许一定信息通过）
$y_i = \left\{ \begin{matrix} x_i,if ~~~x \geqslant0 \\ \frac {x_i}{a_i},if ~~~x<0 \end{matrix} \right.，a_i是（1，+\infty)区间内的固定参数$
PReLU可以看作是Leaky ReLU的一个变体。在PReLU中，负值部分的斜率是根据数据来定的，而非预先定义的PReLU中的ai是根据数据变化的；Leaky
ReLU中的ai是固定的
ELU不同于LeakyReLU和PReLU输入为负时，进行线性压缩,指数线性单元在输入为负时、进行非线性变换
$\left\{ \begin{matrix} x,~~~~~~~~~~~~~~if ~~~x \geqslant0 \\ \alpha(e^x - 1),if ~~~x<0 \end{matrix} \right.$
- α> 0是一个超参数，具有调节激活值均值为0的功能，可加速神经网络收敛
- 计算量稍大，类似于Leaky ReLU，理论上虽然好于ReLU，但在实际使用中目前并没有好的证据ELU总是优于ReLU

神经网络的运行分三步：
- 前向传播：给定输入和参数，逐层向前进行计算，最后输出预测结果
- 反向传播：基于前向传播得到的预测结果，使用损失函数得到损失值，然后计算相关参数梯度，该计算方法称为：反向传播
- 参数更新：使用梯度下降算法对参数进行更新，重复上述过程，逐步迭代，直到模型收敛

前向传播过程:

反向传播过程:

以二次损失函数为例： $\frac 1{2n}\sum_x||y(x) - a^L(x)||^2$
- 其中n为训练样本x的总数， $y = y (x)$ 为期望的输出，L为网络的层数， $a^L(x)$ 为网络的输出向量
反向传播过程中要计算 $\frac {\partial C}{\partial \omega}$ 和 $\frac {\partial C}{\partial b}$

优化困境：

梯度消失：
- 当层数增加，最后一层误差将在前面层中快速衰减，使得靠近输入层的梯度值非常小，参数几乎无法进行有效更新，在下一次前向传播时，由于前面层的参数无法有效从数据中获得有价值信息供后面层使用，模型难以有效训练
局部最优与鞍点：
- 损失函数与参数之间关系为非凸，深度神经网络具有非常多的局部最优。不过往往这些局部最优都可以保证模型效果。
- 由于维度过高，神经网络模型常存在很多鞍点（梯度为0、但不是最大或最小值），影响模型收敛、陷入局部最优假象