关于梯度弥散问题:
由上面的推导过程大概可以看出在求每一层的权重更新值时,都需要求激活函数的导数f'(x),若激活函数为sigmoid函数,因为sigmoid的函数值本来就在[0,1]之间,其导数f'(x)=f(x)(1-f(x)),将会更小,因此,当网络很深的时候使用sigmoid函数作为激活函数,在进行误差后向传播的时候出现梯度弥散问题。
关于梯度弥散问题:
由上面的推导过程大概可以看出在求每一层的权重更新值时,都需要求激活函数的导数f'(x),若激活函数为sigmoid函数,因为sigmoid的函数值本来就在[0,1]之间,其导数f'(x)=f(x)(1-f(x)),将会更小,因此,当网络很深的时候使用sigmoid函数作为激活函数,在进行误差后向传播的时候出现梯度弥散问题。