激活函数的作用

在线性不可分的情况下，激活函数可以给模型引入非线性因素。什么意思呢？比如下面异或问题。

x	y	z
1	0	1
0	1	1
1	1	0
0	0	0

这个问题是线性不可分的，假设有一个单隐藏层的神经网络，如图：
这里写图片描述
上图线上数字表示权重，下面两个节点是异或问题的输入，中间隐藏层的1.5表示大于1.5才激活输出1，否则输出0，后面输出层0.5同理。
如果熟悉神经网络的前向传播，容易看出，这个网络的输出就是我们的异或真值表，而网络中1.5，0.5这样的阈值阶跃函数就是我们的激活函数。

常见的激活函数

sigmoid函数 $\sigma(z)=\frac{1}{1+e^{-z}}$

从图像可以看出来sigmoid函数越远离原点，图像越平滑，梯度越小，我们知道在神经网络BP的时候需要求权重的梯度，当经过sigmoid激活时梯度信息会变小，如果层数变深，会产生梯度弥散现象。

tanh函数 $\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

tanh是双曲正切函数，tanh函数和sigmod函数的曲线是比较相近的，咱们来比较一下看看。首先相同的是，这两个函数在输入很大或是很小的时候，输出都几乎平滑，梯度很小，不利于权重更新；不同的是输出区间，tanh的输出区间是在(-1,1)之间，而且整个函数是以0为中心的，这个特点比sigmod的好。但梯度消失现象依然存在。

Relu函数 $f(x)=max(0,x)$

relu是目前神经网络最常用的激活函数，相对于前两个，在输入为正数的时候，不存在梯度饱和问题。
计算速度要快很多。
但是输入为负数的时候，是完全不激活的，在BP过程中，也会导致梯度消失，只能说relu能一定程度解决梯度弥散问题。

神经网络激活函数总结

激活函数的作用

常见的激活函数

sigmoid函数 $\sigma(z)=\frac{1}{1+e^{-z}}$

tanh函数 $\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

Relu函数 $f(x)=max(0,x)$

参考 https://www.zhihu.com/question/22334626 lee philip回答

猜你喜欢

神经网络激活函数总结

激活函数的作用

常见的激活函数

sigmoid函数 σ(z)=11+e−z σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}}

tanh函数 tanh(x)=ex−e−xex+e−x tanh ⁡ ( x ) = e x − e − x e x + e − x \tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}

Relu函数 f(x)=max(0,x) f ( x ) = m a x ( 0 , x ) f(x)=max(0,x)

参考 https://www.zhihu.com/question/22334626 lee philip回答

猜你喜欢

sigmoid函数 $\sigma(z)=\frac{1}{1+e^{-z}}$

tanh函数 $\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

Relu函数 $f(x)=max(0,x)$