李宏毅机器学习——学习笔记(4) Gradient desent

Grandient Desent

learning rate

1. smaller learning rate: 更新速度太慢
2. bigger learning rate: 太早收敛,得不到较好的解
3. adaptive learning rate: 根据参数和迭代次数来调整learning rates
Adaptive Learning Rates

在这里插入图片描述

  • 对每个不同的参数,都有不同的learning rate

在这里插入图片描述

  • 直觉解释是造成反差的大小,理论上解释有点复杂,主要是一阶微分和二阶微分的比值,而随机sample多一些一阶微分值,预估出大概多二阶微分值,一般而言,二阶微分值较大的情况下,大多数一阶微分值也较大
    在这里插入图片描述
    在这里插入图片描述

Stochastic Gradient Desent

在这里插入图片描述

Feature Scaling
  • Feature Scaling的原因是让整个loss的等高线趋向于圆形,使得每次的负梯度方向都是趋近于一致的;否则将呈现一种椭圆形,负梯度方向一直在变化,降低效率。
    在这里插入图片描述
  • Gradient Descent 数学原理
    Gradient Descent基于泰勒展开,只考虑一阶导数,要每次调整参数至邻域范围内最小loss值处。loss值最小,即朝一阶微分的反方向调整。在这里插入图片描述
    其中learning rate和红色圆圈的直径d成正比,泰勒展开忽略其他项的要求是d要足够小
    在这里插入图片描述
  • Grandient Descent问题
    现实中主要的问题是在一阶微分较小的情况下,难以进行参数调整
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/m0_37757740/article/details/88677796
今日推荐