二、梯度下降算法

课后作业

以前喜欢用微软自带的paint绘图,总感觉少些什么,现在直接手推,感觉效果会更好些,虽然字体很丑,但印象更深。

梯度下降算法(Gradient Descent Algorithm)推导

无非就是求导呗,推导如下,以y=w*x线性函数为例哈
在这里插入图片描述

y = w * x函数拟合(梯度下降法

import matplotlib.pyplot as plt

# 定义数据集  假设函数为y = 3 * x
x_data = [1.,2.,3.,4.,5.]
y_data = [3.,6.,9.,12.,15.]
epoch_list = [] #保存下训练次数
cost_list = []  #保存下每次训练的MSE损失值

# 初始化w,假设为1
w = 1.

def forward(x): #预测值,即y_hat
    return x * w

def cost(xs,ys): #MSE损失函数
    loss_all = 0
    for x,y in zip(xs,ys):
        y_hat = forward(x) #拿到模型预测值y_hat
        loss_all += (y_hat - y) ** 2 #将每个loss求和得到loss_all
    return loss_all / len(xs) #这里为了求平均值,len(xs)和len(ys)都可以

def gradient(xs,ys): #梯度
    grad = 0
    for x,y in zip(xs,ys):
        grad += 2 * x * (w * x - y)
    return grad / len(ys)

print("Predict:",4,"\ny_real:",forward(4)) #因为w初始值设置的是1,故模型输出4.0


for epoch in range(500): #训练500个epoch
    cost_val = cost(x_data,y_data) #拿到MSE损失函数值
    grad_val = gradient(x_data,y_data) #拿到当前位置的梯度
    w -= 0.001 * grad_val #更新w参数
    print("Epoch:",epoch,"\tw=",w,"\tloss=",cost_val)
    epoch_list.append(epoch)
    cost_list.append(cost_val)
print("Predict:",4,"\ny_real:",forward(4)) #此时的w通过梯度下降法更新w,可以得到很接近真确答案的值   

#绘图,方便看出训练效果
plt.plot(epoch_list,cost_list)
plt.ylabel('MSE Value')
plt.xlabel('Epoch')
plt.show()

在这里插入图片描述
梯度下降法类似贪心算法,本质思想都是求得局部最优解
不一定是全局最优解,但一定是局部最优解

然而,梯度下降法最主要的弊端,就是鞍点问题不容易解决。鞍点处导数为
,w无法再继续更新了,嘎住了。

为了解决鞍点问题,随机梯度下降法出现了,主要区别在于:
梯度下降法的损失函数值是全部样本的平均值
随机梯度下降的损失函数是随机抽取单个样本
正因为这一点,随机抽取单个样本,可以使得w一点一点挪动

梯度下降法虽然性能不高,惧怕鞍点,但它可以并行训练,因为直接没有必然的联系;
随机梯度下降法根据随机抽取的单一样本计算梯度可以很好的避免鞍点的出现,但因为每个w的更新都需要上一个w的介入,故不可以并行训练。

y = w * x函数拟合(随机梯度下降法

import matplotlib.pyplot as plt

# 定义数据集  假设函数为y = 3 * x
x_data = [1.,2.,3.,4.,5.]
y_data = [3.,6.,9.,12.,15.]
epoch_list = [] #保存下训练次数
cost_list = []  #保存下每次训练的MSE损失值

# 初始化w,假设为1
w = 1.

def forward(x): #预测值,即y_hat
    return x * w

def loss(xs,ys): #MSE损失函数
    y_hat = forward(x) #拿到模型预测值y_hat
    loss_all = (y_hat - y) ** 2 #随机抽取一个loss作为最终的loss_all
    return loss_all

def gradient(x,y): #单一样本的梯度
    grad = 2 * x * (w * x - y)
    return grad

print("Predict:",4,"\ny_real:",forward(4)) #因为w初始值设置的是1,故模型输出4.0


for epoch in range(500): #训练500个epoch
    for x,y in zip(x_data,y_data):
        grad_val = gradient(x,y) #拿到当前位置的梯度
        w -= 0.001 * grad_val #更新w参数
        l = loss(x,y)
        print("Epoch:",epoch,"\tw=",w,"\tloss=",l)
    epoch_list.append(epoch)
    cost_list.append(l)

print("Predict:",4,"\ny_real:",forward(4)) #此时的w通过随机梯度下降法更新w,可以得到很接近真确答案的值   

#绘图,方便看出训练效果
plt.plot(epoch_list,cost_list)
plt.ylabel('loss Value')
plt.xlabel('Epoch')
plt.show()

在这里插入图片描述
总结:
梯度下降法
①求所有样本的loss,求和得到cost,再取平均值
②求所有样本的梯度
③更新w

随机梯度下降法
①取所有样本中的一个,求梯度
②更新w
③求单个样本的loss

猜你喜欢

转载自blog.csdn.net/qq_41264055/article/details/129824997