一文搞懂常见的激活函数 - 代码天地

一文搞懂常见的激活函数

其他 2020-09-14 08:59:04 阅读次数: 0

目录

为什么要用激活函数

常见的激活函数

如何选择激活函数

一、为什么要用激活函数

设想一下，如果我们不使用激活函数的话，那么模型为 $y=w^{T}*X+b$ ，我们来简单的计算一下，如上图所示：

$Z^{[1]}=W^{[1]}\times X+b^{[1]}$

$A^{[1]}=g^{[1]}\left (Z ^{[1]} \right )$

$Z^{[2]}=W^{[2]}\times A^{[1]}+b^{[2]}$

$A^{[2]}=g^{[2]}\left (Z ^{[2]} \right )$

由于没有激活函数，那么也就是说 $g\left ( z \right )=z$ ，那么则有 $A^{[1]}=g^{[1]}\left (Z ^{[1]} \right )=Z ^{[1]}$ ，则：

$Z^{[2]}=W^{[2]}\times A^{[1]}+b^{[2]}$

$=W^{[2]}\times Z^{[1]}+b^{[2]}$

$=W^{[2]}\times \left ( W^{[1]}\times X +b^{[1]}\right )+b^{[2]}$

$=W^{[2]} W^{[1]}\times X +b^{[1]}+b^{[2]}$

$A^{[2]}=g^{[2]}\left (Z ^{[2]} \right )=Z ^{[2]}$

可以看出不管经过多少次运算，模型仍然为线性模型，无法处理复杂的分类问题，显然这是不可取的。

举个例子：

如果我们遇到问题是上图这种情况，那么没有损失函数是完全OK的，因为我们使用一个线性模型就能够很好的进行分类。

但是如果上图中蓝色和黄色的点混在一起的话，这个线性模型还能起到这么好的作用吗？

答案是否定的，所以我们需要激活函数来使线性模型变成非线性的。

二、常见的激活函数

Sigmoid函数：

特点：能够把线性模型求得的值压缩到0~1之间。

缺点：

1、梯度消失：从图像中可以看出，当x值非常大时，sigmoid激活函数的梯度为0，这样会造成的后果就是会产生梯度消失，而且它的导数值最大为0.25，如果权值w也是一个小于1的数，那么通过反向传播也是会产生梯度消失。

2、计算复杂：公式中有幂运算，对于深层次的神经网络，计算机运算费时。

3、不是零均值：sigmoid函数的输出不是零均值，会导致参数收敛速度变慢。想了解原理，传送门如下：深度学习图像预处理中为什么使用零均值化(zero-mean)

tanh函数：

tanh解决了Sigmoid函数的不是零均值输出问题，但是梯度消失的问题和计算复杂的问题仍然存在。

Relu函数：

优点：

1、函数简单，运算速度快

2、在正区间不会产生梯度消失

3、比sigmoid和tanh收敛速度快

缺点：

1、relu函数的输出值也不是零均值。

2、relu函数在小于0的区域的得到的值为0，这样会导致部分神经元失活，部分参数无法更新，原因有：

一、参数初始化化的时候出现问题，导致计算出来的值为负数，这样经过Relu激活函数后值为0。

二、在反向传播梯度更新的时候， $w=w-\alpha dw$ ，学习率α设的太高，导致更新后的 $w$ 为负值。

虽然有上述的缺点，但是Relu激活函数仍是目前使用最广泛的激活函数。

Leaky ReLU函数

由图可知，Leaky ReLU函数在x<0时使得y值不为0，这样就解决了Relu激活函数的第二个缺点，而且还有这Relu函数的所有优点。但是在实际中还是使用Relu多一点点。

三、如何选择激活函数

用Relu就完事了

如果您觉得文章对你有帮助，点个关注不迷路~

以上就是本文的全部内容，获取深度学习资料以及吴恩达老师课程（中文字幕），扫描下方公众号，回复“资料”两字即可获取，祝您学习愉快。

猜你喜欢

转载自blog.csdn.net/qq_38230338/article/details/107718378

一文搞懂常见的激活函数

一文搞懂HTTP协议及相关常见面试题

夯实Java基础系列19：一文搞懂Java集合类框架，以及常见面试题

一文彻底搞懂重载函数匹配

一文搞懂python实例属性和函数的用法

一文搞懂C语言回调函数

一文彻底搞懂JS函数柯里化

一文搞懂LSTM

一文搞懂补码

一文搞懂NIO

一文搞懂JWT

一文搞懂Docker

一文搞懂RabbitMq

一文搞懂Celery

一文搞懂Redis

一文搞懂DDD

一文搞懂CUDA

一文搞懂static

一文搞懂jQuery

一文搞懂Kerberos

一文搞懂containerd

一文搞懂信号

一文搞懂 this 指向

常见的激活函数

常见激活函数

一文总结机器学习常见模型

一文理清 Go 引用的常见疑惑

【一文看懂SQL系列】DDL 常见约束

一文搞定常见的链表问题

一文搞定Linux常见用法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)