'Dead ReLU Problem' 产生的原因 - 代码天地

'Dead ReLU Problem' 产生的原因

其他 2018-05-08 23:00:00 阅读次数: 5

原文地址：https://www.quora.com/What-is-the-dying-ReLU-problem-in-neural-networks

译者话：看了一些激活函数优缺点的中文博客，很少有人去解释’Dead ReLU’现象，无奈只能去国外的论坛找答案了，于是就有这篇翻译，感觉挺有道理。

假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。

在这个场景下：

大多数ReLU的输入是正数，因此
大多数输入经过ReLU函数能得到一个正值（ReLU is open），因此
大多数输入能够反向传播通过ReLU得到一个梯度，因此
ReLU的输入（w）一般都能得到更新通过随机反向传播（SGD）

现在，假设在随机反向传播的过程中，有一个巨大的梯度经过ReLU，由于ReLU是打开的，将会有一个巨大的梯度传给输入（w）。这会引起输入w巨大的变化，也就是说输入w的分布会发生变化，假设输入w的分布现在变成了一个低方差的，中心在-0.1高斯分布。

在这个场景下：

大多数ReLU的输入是负数，因此
大多数输入经过ReLU函数能得到一个0（ReLU is close）,因此
大多数输入不能反向传播通过ReLU得到一个梯度，因此
ReLU的输入w一般都得不到更新通过随机反向传播（SGD）

发生了什么？只是ReLU函数的输入的分布函数发生了很小的改变（-0.2的改变），导致了ReLU函数行为质的改变。我们越过了0这个边界，ReLU函数几乎永久的关闭了。更重要的是ReLU函数一旦关闭，参数w就得不到更新，这就是所谓的‘dying ReLU’。

（译者：下面有一段关于神经元死亡后能够复活的讨论，未翻译）

从数学上说，这是因为ReLU的数学公式导致的

$r(x) = max(x,0)$

导数如下

$\Delta_{x} r(x) = 1 (x>0)$

所以可以看出，如果在前向传播的过程中ReLU is close，那么反向传播时，ReLU也是close的。

我不确定ReLU dying在实际中是否经常发生，但是显然值得关注。希望你能明白为什么大的学习率可能是这里的罪魁祸首。在反向传播的过程中，大的梯度更新，可能会导致参数W的分布小于0。

猜你喜欢

转载自blog.csdn.net/disiwei1012/article/details/79204243

'Dead ReLU Problem' 产生的原因

常见激活函数优缺点与dead relu problem

由dead relu引发的思考——正则化算法漫谈

MySQL，产生死锁的问题dead lock

海思开发：relu、relu6 在量化前后的精度变化及原因思考

Is Design Dead?

Dead Lock

Dead Loops

The walking dead

python webdriver 报错WebDriverException: Message: can't access dead object的原因（pycharm中）

【Problem】Maven类冲突原因

Keras读取保存的模型时, 产生错误[ValueError: Unknown activation function:relu6]

Relu的理解

Relu的缺点

Relu函数与Leaky Relu函数

vsftpd dead but subsys locked

crond dead but subsys locked

RabbitMQ Dead Letter Exchange

Is SDN really Dead ?！

Lawn of the Dead （线段树）

Thread Dead Lock Demo

relu激活函数解读 Tensorflow学习——ReLu

激活函数（sigmoid、tanh、ReLU、leaky ReLU）

Dynamic ReLU：根据输入动态确定的ReLU

Problem

a problem

Problem A

A - Problem A

hdu3185 Dead Or Alive

Search is Dead! Long Live Search"

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)