机器学习激活函数整理（不定时更新）

一。线性神经元：实现输入信息的完全传导（仅为概念基础）
在这里插入图片描述
由于激活函数是线性结构，多层神经网络可以用单层表达，因此神经网络层数的增加并不会增加网络的复杂性，因此只用于概念，实际不会使用

二。线性阈值神经元
在这里插入图片描述
1.输出和输入都是二值的
2.每个神经元都有固定的阈值θ
3.每个神经元都从带全激活突触接受信息
4.抑制突触对任意激活突触有绝对否决权
5.每次汇总带全突触和，若>θ则不存在抑制，如<θ则为0
y = 1当x>0（特权开关）; y=0当x<0
实际也不会用到

三。sigmoid神经元
在这里插入图片描述
1.数学表达式：y = 1/(1+e^-x) 偏导：dy/dx = y(1-y)
2.优点：求导简单，很好地表达了“燃烧率”（从饱和不激活0到完全饱和激活1）
3.缺点：sigmoid函数进入饱和区后梯度消失（接近0或1)，会使反向传播无法调参；并非以0为中心，会使参数皆为正或皆为负，出现zig-zag运动

四。Tanh神经元
在这里插入图片描述
1.数学表达式：y = (exp(x)-exp(-x))/(exp(x)+exp(-x)) 偏导：dy/dx = 1-y^2
2.优点：将实数“压缩”到了-1~1的范围内，改进了sigmoid过于平缓的问题

五。ReLU神经元
在这里插入图片描述
1.数学表达式：y=x,当x>0; y=0,其他等价于y=max(0,x)
2.优点：非线性（信息整合能力强），一定范围内线性（训练简单，快速，比Tanh快6倍）
3.缺点：大梯度导致权值可能更新到不被任何数据激活的位置
4.变种(LeakyReLU)：y = max(x,αx),其中α是一个接近于0的极小的正值

六。Maxout神经元
1.数学表达式：y = maxa = max(W1.T+b1,W2T+b2,W3.T+b3，W4.T+b4，W5.T+b5…)
求导：只有最大值的那一条权值和偏置值进行梯度下降，其他路的权值和偏置值不进行操作
2.优点：能在一定程度上缓解梯度下降时梯度消失的问题，同时又能规避ReLU“死亡”，但增加了参数和计算量

七。Softmax神经元
1.数学表达式：y = e^zi/ ∑e^zj 偏导：i=j时:dyi/dzi = yi-yi^2; i!=j时：dyj/dzi = 1-yiyj
2.特别的，softmax目标函数为loss = -∑yi*log(h(θ)) 其中yi为实际值，h(θ)为预测值。偏导：dloss/dzi = h(θ)-yi

机器学习激活函数整理（不定时更新）

猜你喜欢