激活函数选取不当为什会造成梯度消失

下图为四层神经网络,它包括输入层,输出层,两个隐层

假设输入层到第一个隐层的权值为,偏置值为。两个隐层之间的权值为,偏置值为。第二个隐层到输出层的权值为,偏置值为。现在假设输入的值为,输出为,标签值为。前一层的输出为后一层的输入则输出层输出为:

(f为激活函数)

代价函数我们使用常用的方差函数:

我们知道利用梯度下降法更新权值的公式为:

现在我们想更新的权值,根据权值更新公式则和链式法则有:


假设我们的激活函数为sigmoid函数,他的表达式和导函数为:

   , 

扫描二维码关注公众号,回复: 2211958 查看本文章

函数图像,和导函数图像为:



可知他的导函数最大值为0.25<1,我们的例子是四层神经网络,如果是很多层呢,那么多小于1的数连乘,很可能导致梯度消失。







猜你喜欢

转载自blog.csdn.net/qq_29023939/article/details/80260250