深度学习-激活函数 - 代码天地

深度学习-激活函数

其他 2020-05-25 11:14:29 阅读次数: 0

激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。引入非线性激活函数，可使深
层神经网络的表达能力更加强大。
优秀的激活函数应满足：

非线性：激活函数非线性时，多层神经网络可逼近所有函数
可微性：优化器大多用梯度下降更新参数
单调性：当激活函数是单调的，能保证单层网络的损失函数是凸函数
近似恒等性： $f(x) \approx x$ . 当参数初始化为随机小值时，神经网络更稳定

激活函数输出值的范围：

激活函数输出为有限值时，基于梯度的优化方法更稳定
激活函数输出为无限值时，建议调小学习率

常见的激活函数有：sigmoid，tanh，ReLU，Leaky ReLU，PReLU，RReLU，
ELU（Exponential Linear Units），softplus，softsign，softmax等，下面介绍几个典型的激活
函数：

sigmoid

函数图像

导数图像

优点：

输出映射在(0,1)之间，单调连续，输出范围有限，优化稳定，可用作输出层；
求导容易。

缺点：

易造成梯度消失；（(对于深层网络，需要对多层参数进行链式求导，根据其导数范围(0,0.25)，多个参数的导数相乘会趋近为0，梯度消失)）
输出非0均值，收敛慢；（其数值在(0,1)，都是正数）
幂运算复杂，训练时间长。

sigmoid函数只能处理两个类（因为其值要么大等于0.5，要么小于0.5，只能判断这两种情况），不适用于多分类问题。而softmax可以有效解决这个问题，并且softmax函数大都运用在神经网路中的最后一层网络中，使得值的区间在（0,1）之间，而不是二分类的。

tanh

函数图像

导数图像

优点：

比sigmoid函数收敛速度更快。
相比sigmoid函数，其输出以0为中心。

缺点：

易造成梯度消失；
幂运算复杂，训练时间长。

ReLU

函数图像

导数图像

优点：

解决了梯度消失问题(在正区间)；
只需判断输入是否大于0，计算速度快；
收敛速度远快于sigmoid和tanh，因为sigmoid和tanh涉及很多expensive的操作；
提供了神经网络的稀疏表达能力。

缺点：

输出非0均值，收敛慢；
Dead ReLU问题：某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。（参数为负数的时候，梯度为0）

Leaky ReLU

函数图像

导数图像

理论上来讲，Leaky ReLU有ReLU的所有优点，外加不会有Dead ReLU问题，但是在实际操作当
中，并没有完全证明Leaky ReLU总是好于ReLU。

softmax

对神经网络全连接层输出进行变换，使其服从概率分布，即每个值都位于[0,1]区间且和为1。

对于初学者的建议：

首选ReLU激活函数；
学习率设置较小值；
输入特征标准化，即让输入特征满足以0为均值，1为标准差的正态分布；
初始化问题：初始参数中心化，即让随机生成的参数满足以0为均值， $\sqrt{\frac 2{当前层输入特征个数}}$ 为标准差的正态分布。

猜你喜欢

转载自blog.csdn.net/Frank_LJiang/article/details/106299695

[深度学习] 激活函数

深度学习 - 激活函数

深度学习----激活函数

【深度学习】激活函数

深度学习：激活函数

深度学习-激活函数

深度学习中的激活函数

深度学习常用激活函数

深度学习：激活函数总结

深度学习-激活函数总结

深度学习的激活函数学习

深度学习基础--loss与激活函数--好的激活函数的性质

深度学习—常见激活函数对比

深度学习——激活函数Sigmoid/Tanh/ReLU

深度学习中的激活函数与梯度消失

深度学习（七）激活函数与梯度消失

深度学习之激活函数分析

深度学习常见激活函数

深度学习中激活函数的优缺点

[深度学习]神经网络的激活函数

深度学习之激活函数（三）

深度学习--激活函数的对比分析

深度学习几种主流激活函数总结

深度学习基础--loss与激活函数--

深度学习笔记2-激活函数

深度学习中的激活函数导引

深度学习中的激活函数介绍

深度学习的四种激活函数

深度学习笔记--激活函数：sigmoid，maxout

深度学习中常见的激活函数

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)