梯度下降算介绍以及代码详解

什么是梯度下降:

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处

理论部分:

在这里插入图片描述
在这里插入图片描述

梯度下降伪代码(个人感觉第(5)步应该转第(2)步):

在这里插入图片描述

代码:

import numpy as np

# 首先初始化函数
def f(x):
    return x ** 2 + 10 * np.sin(x)
    

# 然后初始化梯度函数
def df(x):
    return 2 * x + 10 * np.cos(x)
    

# 定义一个阈值
value = 10e-8


# 初始化起始点
k = 2

while True:
    grad = df(k)
#     print(grad)
    if np.abs(df(k)) < value:
        x_mark = k
        break
    else:
        # 找出最合适的学习率
        Lambda = np.linspace(0, 12, 10000000)
        tem = k-Lambda * grad       # 直接减去的梯度的方向,
        base_Lambda = Lambda[np.argmin(f(tem))]
#         print("最佳的学习率为", Lambda[np.argmin(f(tem))])
    if np.abs(k - (k-base_Lambda * grad)) < value or np.abs(f(k) - f(k-base_Lambda * grad)) < value:
        x_mark = k-base_Lambda * grad
        break
    k = k-base_Lambda * grad
print("局部最优的坐标X值为:",x_mark)
print("局部最优的学习率为:", base_Lambda)



Out:
局部最优的坐标X值为: 3.837467103051607
局部最优的学习率为: 11.37973433797343

Guess you like

Origin blog.csdn.net/weixin_51756104/article/details/120896801