(李沐DL)数值优化

神经网络的梯度
梯度 --》求偏导
向量对于向量的导数都是矩阵
梯度爆炸:梯度都是比一大的数
对于学习率敏感
学习率太大 大参数值 更多的梯度
如果学习率太小-》训练无进展

梯度消失:梯度小于一时
梯度值变成0 对于16为浮点数尤为严重
训练没有进展,不管如何选择学习率
对于底部尤为严重仅仅顶部训练的较好
无法让神经网络更深
数值过大或者过小都会导致数值问题
会对n个数累乘

sigmoid
relu = max(x,0)

让训练更加稳定
目标是让梯度值在合理的范围内 【1e-6,1e3】
将乘法变加法
归一化,梯度裁剪
合理的权重初始和激活函数

权重初始化,在合理值区间里随机初始参数
#xavier 是常用权重的初始化方法
#kaiming初始化也是一个初始化方法
初始化对后面影响也不是很大

选取激活函数提升数值稳定性
准确率在50%左右权重参数有大问题不是单单能调整lr能解决的
nan一般是梯度爆炸

猜你喜欢

转载自blog.csdn.net/qq_45675231/article/details/130230135
今日推荐