【激活函数】ReLU激活函数的思考

优点:

a. 克服梯度消失的问题
b. 加快训练速度

缺点:

a. 0 点连续不可导(直上直下),梯度下降过程中不那么流畅。
b. ReLU 只有正值,没有负值,bp 时有 zigzag 现象, 容易陷入局部最优。
c. 当 x<0 时,结果为0,有信息损失。

对于缺点b解释如下:

在这里插入图片描述
       公式第一行是正向传播计算公式,其中x为经过激活函数后的上一个神经元,f 为当前神经元,如果使用ReLU激活函数的话,x的值是大于0的。第二行是 f 对 w 求偏导,结果为 x,是大于 0 的,第三行是损失函数L对权重w求偏导(即w的梯度,更新权重时要用,也是我们反向传播的最终目的),结果等于 L 对 f 求偏导乘以x。此时x的值一定是大于0的,因此可以得出 L 对于 w 的偏导的符号就等于 L 对于 f 的偏导的符号(符号即正或负)。权重导数的符号可以等价于权重更新的方向,所以最终可以得出所有的权重w都会朝着一个方向更新,方向取决于L对于f求偏导的符号,正或者负。

       如右图所示,假设w_i只有w1和w2两个值。那么由以上推断可以得出,w1和w2每次更新的方向是一致的,因此权重最终的更新过程便如右图所示。那么更新时走的路程会更长,就更容易进入局部最小值点,假设此时局部最小值点不可导,那么权重将无法更新。

猜你喜欢

转载自blog.csdn.net/Roaddd/article/details/114790006
今日推荐