在机器学习中,通常需要不断的通过优化器,优化以减小损失。在优化过程中,最经常用到的就是学习速率,也就是在通过梯度决定模型训练走向的时候所使用的一个总要参数。
在经过多次优化之后,会出现疑惑度不会降低, 此时主要是因为,学习速率过大导致模型不能够很好的进行收敛。这个时候需要做的就是,减小学习速率,促使模型收敛。也就是标题中提到的学习速率衰减。
常见的学习速率衰减的几种模式:
- luong234
- luong5
- luong10
- noam
这几个模式主要是在开源模型中提到的,如果出现其他衰减模式,另做补充。
前三种衰减模式主要是:总步数,起始学习速率 有关
luong234 衰减方式,是通过在 总步数三分之二 之后开始衰减,接下来的平均衰减四次,每次衰减为上一次的二分之一
luong5 : 是指在总步数二分之一以后开始衰减,以后平均衰减五次,每次二分之一。
luong10: 和上面同理
noam: 与上面不同,主要和四个参数相关,当前步数(S), 预热步数(W_S), 网络层大小(L_S),原始学习速率(O_S)
每一步速率:
扫描二维码关注公众号,回复:
2282967 查看本文章
这样在每次优化的时候都会重新设置 学习速率。
学习速率衰减模式需要根据具体的情况进行选择。