激活函数总结（sigmoid、tanh、RELU、LRel、PReLU、ELU、GELU和SELUS）

sigmoid函数

在这里插入图片描述

特点：函数值介于（0，1）之间，x在负无穷和正无穷之间。
缺点：
1、有饱和区域，是软饱和，在大的正数和负数作为输入的时候，梯度就会变成零，使得神经元基本不能更新。
2、只有正数输出（不是zero-centered），这就导致所谓的zigzag现象
在这里插入图片描述
3、计算量大（exp）

tanh(x)

函数值介意（-1，1）之间。tanh和sigmoid函数是具有一定的关系的，可以从公式中看出，它们的形状是一样的，只是尺度和范围不同。tanh是zero-centered，但是还是会饱和。
在这里插入图片描述

RELU

在这里插入图片描述
CNN中常用。对正数原样输出，负数直接置零。在正数不饱和，在负数硬饱和。relu计算上比sigmoid或者tanh更省计算量，因为不用exp，因而收敛较快。能够帮助解决sigmoid随着层数的增加梯度衰减现象。但是还是非zero-centered。

relu在负数区域被kill的现象叫做dead relu，这样的情况下，有人通过初始化的时候用一个稍微大于零的数比如0.01来初始化神经元，从而使得relu更偏向于激活而不是死掉，但是这个方法是否有效有争议。
参考文献：Deep Sparse Rectiﬁer Neural Networks
函数值介于
在这里插入图片描述