深度学习之激活函数（三）

一、为什么要激活函数

神经网络单个神经元的基本结构由线性输出 Z 和非线性输出 A 两部分组成。如下图所示：

其中，f(x) 即为线性输出 Z，g(x) 即为非线性输出，g() 表示激活函数。通俗来说，激活函数一般是非线性函数，其作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题。

举个简单的例子，二分类问题，如果不使用激活函数，例如使用简单的逻辑回归，只能作简单的线性划分，如下图所示：

如果使用激活函数，则可以实现非线性划分，如下图所示：

可见，激活函数能够帮助我们引入非线性因素，使得神经网络能够更好地解决更加复杂的问题。

有个问题，为什么激活函数一般都是非线性的，而不能是线性的呢？从反面来说，如果所有的激活函数都是线性的，则激活函数 g(z)=z，即 a=z。那么，以两层神经网络为例，最终的输出为：

经过推导我们发现网络输出仍是 X 的线性组合。这表明，使用神经网络与直接使用线性模型的效果并没有什么两样。即便是包含多层隐藏层的神经网络，如果使用线性函数作为激活函数，最终的输出仍然是线性模型。这样的话神经网络就没有任何作用了。因此，隐藏层的激活函数必须要是非线性的。

值得一提的是，如果所有的隐藏层全部使用线性激活函数，只有输出层使用非线性激活函数，那么整个神经网络的结构就类似于一个简单的逻辑回归模型，效果与单个神经元无异。另外，如果是拟合问题而不是分类问题，输出层的激活函数可以使用线性函数。

二、梯度消失和梯度爆炸

梯度消失：更新模型参数的方法是反向求导，越往前梯度越小。而激活函数是 sigmoid 和 tanh 的时候，这两个函数的导数又是在两端都是无限趋近于0的，会使得之前的梯度也朝向0，最终的结果是到达一定”深度“后，梯度就对模型的更新没有任何贡献。

梯度爆炸：梯度爆炸就是由于初始化权值过大，反向传播时对激活函数进行求导，如果此部分大于1，那么层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸的现象。

三、Sigmoid函数

激活函数 Sigmoid 的图形表达式如下所示：

Sigmoid 函数的取值范围在 (0,1) 之间，单调连续，求导容易，一般用于二分类神经网络的输出层。

下面重点谈一下 Sigmoid 函数的缺点：

（1）Sigmoid 函数饱和区范围广，容易造成梯度消失。饱和区如下图所示：

上图中红色椭圆标注的饱和区曲线平缓，梯度的值很小，近似为零。而且 Sigmoid 函数的饱和区范围很广，例如除了 [-5,5]，其余区域都近似饱和区。这种情况很容易造成梯度消失，梯度消失会增大神经网络训练难度，影响神经网络模型的性能。

（2）Sigmoid 函数输出是非零对称的，即输出恒大于零。这会产生什么影响呢？我们来看，假如 Sigmoid 函数的输出为 σ(Wx+b)，且满足 0<σ(Wx+b)<1。在反向求导过程中，令损失函数 J 对 σ(Wx+b) 的求导为 dσ，现在计算 J 对 W 的偏导数：

其中，σ(Wx+b)>0，1-σ(Wx+b)>0。

若神经元的输入 x>0，则无论 dσ 正负如何，总能得到 dW 恒为正或者恒为负。也就是说参数矩阵 W 的每个元素都会朝着同一个方向变化，同为正或同为负。这对于神经网络训练是不利的，所有的 W 都朝着同一符号方向变化会减小训练速度，增加模型训练时间。

值得一提的是，针对 Sigmoid 函数的这一问题，神经元的输入 x 常会做预处理，即将均值归一化到零值。这样也能有效避免 dW 恒为正或者恒为负。

最后还有一点，Sigmoid 函数包含 exp 指数运算，运算成本也比较大。

四、tanh函数

激活函数 tanh 的图形表达式如下所示：

tanh 函数的取值范围在 (-1,1) 之间，单调连续，求导容易。

相比于 Sigmoid 函数，tanh 函数的优点主要有两个：其一，收敛速度更快，如下图所示，tanh 函数线性区斜率较 Sigmoid 更大一些。在此区域内训练速度会更快。其二，tanh 函数输出均值为零，也就不存在 Sigmoid 函数中 dW 恒为正或者恒为负，从而影响训练速度的问题。

但是，tanh 函数与 Sigmoid 函数一样，也存在饱和区梯度消失问题。其饱和区甚至比 Sigmoid 还要大一些，但不明显。

五、ReLU函数

激活函数 ReLU 的全称是 Rectified Linear Unit，其图形表达式如下所示：

ReLU 函数是最近几年比较火热的激活函数之一。相比 Sigmoid 和 tanh 函数，其主要优点包括以下几个方面：

没有饱和区，不存在梯度消失问题。
没有复杂的指数运算，计算简单、效率提高。
实际收敛速度较快，大约是 Sigmoid/tanh 的 6 倍。
比 Sigmoid 更符合生物学神经激活机制。

但是，ReLU 函数的缺点也比较明显。首先，ReLU 的输出仍然是非零对称的，可能出现 dW 恒为正或者恒为负，从而影响训练速度。其次，也是最为重要的，当 x<0 时，ReLU 输出总为零。该神经元输出为零，则反向传播时，权重、参数的梯度横为零，造成权重、参数永远不会更新，即造成神经元失效，形成了“死神经元”。

所以，针对这一问题，有时候会将 ReLU 神经元初始化为正偏值，例如 0.01。

六、Leaky ReLU函数

Leaky ReLU 对 ReLU 进行了改进，其图形表达式如下所示：

Leaky ReLU 的优点与 ReLU 类似：

没有饱和区，不存在梯度消失问题。
没有复杂的指数运算，计算简单、效率提高。
实际收敛速度较快，大约是 Sigmoid/tanh 的 6 倍。
不会造成神经元失效，形成了“死神经元”。

当然，0.01 的系数是可调的，一般不会太大。

七、ELU函数

ELU（Exponential Linear Units）也是 ReLU 的一个变种，其图形表达式如下所示：

ELU 继承了 Leaky ReLU 的所有优点：

没有饱和区，不存在梯度消失问题。
没有复杂的指数运算，计算简单、效率提高。
实际收敛速度较快，大约是 Sigmoid/tanh 的 6 倍。
不会造成神经元失效，形成了“死神经元”。
输出均值为零
负饱和区的存在使得 ELU 比 Leaky ReLU 更加健壮，抗噪声能力更强。

但是，ELU 包含了指数运算，存在运算量较大的问题。

八、Maxout

Maxout 最早出现在 ICML2013 上，由 Goodfellow 提出。其表达式如下所示：

Maxout 的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合，而 Maxout 又是取 k 个隐藏层节点的最大值，这些”隐藏层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（上面的公式中 k = 2）。

上图引自论文《Maxout Networks. Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio》，可以说，Maxout 可以拟合任意凸函数，k 值越大，分段越多，拟合效果也就越好。

Maxout 保证了始终是线性区域，没有饱和区，训练速度快，而且不会出现坏死神经元。

九、如何选择合适的激活函数

1）首选 ReLU，速度快，但是要注意学习速率的调整，

2）如果 ReLU 效果欠佳,尝试使用 Leaky ReLU、ELU 或 Maxout 等变种。

3）可以尝试使用 tanh。

4）Sigmoid 和 tanh 在 RNN（LSTM、注意力机制等）结构中有所应用，作为门控或者概率值。其它情况下，减少 Sigmoid 的使用。

5）在浅层神经网络中，选择使用哪种激励函数影响不大。