SGD 讲解,梯度下降的做法,随机性。理解反向传播

SGD 讲解,梯度下降的做法,随机性。理解反向传播

待办

   Stochastic Gradient Descent 随机梯度下降没有用Random这个词,因为它不是完全的随机,而是服从一定的分布的,只是具有随机性在里面。

其中的Stochastic的意思是从x到y的映射: x→yx\to y x→y

给定一个xxx并不能确定地知道输出yyy,而是服从一定的概率分布。

与之对应的是Deterministic这个词,它表示从xxx到yyy的映射是确定的: y=f(x)y=f(x) y=f(x)

具体地,SGD是从训练集中随机选出一个比较小的batch(16/32/64/128…甚至可能只有一个样本)出来,在这个小的样本集上用梯度的均值做梯度下降更新参数。而传统的梯度下降则是每次都要考虑在整个训练集上所有样本的梯度。

使用SGD的原因是训练集样本可能非常多,一方面显存不够把所有样本读进来,另一方面对所有样本计算梯度速度可能太慢了。所以在实际用的时候都不用原始的GD,而是用SGD来做的:

from torch import optim

......

optimizer = optim.SGD(net.parameters(), lr=learning_rate, momentum=0.78)
1
————————————————
版权声明:本文为CSDN博主「刘知昊」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/SHU15121856/article/details/88875149k

猜你喜欢

转载自www.cnblogs.com/lishikai/p/12368493.html
SGD
今日推荐