Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。其公式如下:
gradient比较大的时候,走的地方比较陡峭,希望步长小一点,避免走过,gradient比较小的时候,走的地方比较平缓,希望步长大一点。
adagrad
猜你喜欢
转载自blog.csdn.net/qq_43263543/article/details/121303009
今日推荐
周排行