机器学习与深度学习系列连载：第二部分深度学习（五）深度学习技巧2（Deep learning tips- Relu）

其他 2018-11-04 20:11:06 阅读次数: 0

深度学习技巧（Relu）

深度学习中我们总结出5大技巧：本节我们就从新的激活函数Relu谈起。
在这里插入图片描述

1.新的激活函数 new activation function

我们知道，激活函数在基于神经网络的深度学习中将线性变换，转换为非线性变换。是神经网络能够学到东西的重要一环。常用的激活函数有sigma， tanh 等。
从辛顿大神在2012年imagenet 中的CNN网络中引入relu，这个神奇的看上去是线性的激活函数进入我们的视野，以后扮演者非常重要的作用。
在这里插入图片描述
那问什么要引入relu，sigma、tanh 函数有什么缺点呢？
最主要的问题在于deep learning 无法真正deep：

如图所示，训练上8层之后，正确率急速下降。这是为什么呢？
主要原因在于梯度消失Vanishing Gradient Problem
如图所示：传统的激活函数，数据变化后，输出的变化比输入小，而且根据ChainRule, 层数越深，梯度值相乘的结果越小，小到接近于0的时候，就无法学习了。
在这里插入图片描述
所以，我们引入Relu，他的特点是：

(1) 计算快速（导数是1）
（2）生物学原理（貌似是大脑回路，不太了解）
（3）linear piece 可以模拟任何函数（在以后的深度学习理论会讲）
（4）重点是：可以解决梯度消失的问题

Relu 可以简化神经网络：
在这里插入图片描述

虽然Relu看起来很好（有严格数学证明，以后会深入讲），但是在小于0的时候导数为0，对于参数学习是不利的：所以我们引入Relu的变种：leaky Relu， Parametirc Relu, 以后还会谈到 Selu
在这里插入图片描述

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229，斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里，感谢这些经典课程，向他们致敬！

猜你喜欢

转载自blog.csdn.net/dukuku5038/article/details/83643378

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)