Pytorch中的optimizer.zero_grad和loss和net.backward和optimizer.step的理解 - 代码天地

Pytorch中的optimizer.zero_grad和loss和net.backward和optimizer.step的理解

其他 2020-01-18 10:39:15 阅读次数: 0

引言

一般训练神经网络，总是逃不开optimizer.zero_grad之后是loss（后面有的时候还会写forward，看你网络怎么写了）之后是是net.backward之后是optimizer.step的这个过程。

real_a, real_b = batch[0].to(device), batch[1].to(device)

fake_b = net_g(real_a)
optimizer_d.zero_grad()

# 判别器对虚假数据进行训练
fake_ab = torch.cat((real_a, fake_b), 1)
pred_fake = net_d.forward(fake_ab.detach())
loss_d_fake = criterionGAN(pred_fake, False)

# 判别器对真实数据进行训练
real_ab = torch.cat((real_a, real_b), 1)
pred_real = net_d.forward(real_ab)
loss_d_real = criterionGAN(pred_real, True)

# 判别器损失
loss_d = (loss_d_fake + loss_d_real) * 0.5

loss_d.backward()
optimizer_d.step()

上面这是一段cGAN的判别器训练过程。标题中所涉及到的这些方法，其实整个神经网络的参数更新过程（特别是反向传播），具体是怎么操作的，我们一起来探讨一下。

参数更新和反向传播

在这里插入图片描述
上图为一个简单的梯度下降示意图。比如以SGD为例，是算一个batch计算一次梯度，然后进行一次梯度更新。这里梯度值就是对应偏导数的计算结果。显然，我们进行下一次batch梯度计算的时候，前一个batch的梯度计算结果，没有保留的必要了。所以在下一次梯度更新的时候，先使用optimizer.zero_grad把梯度信息设置为0。

我们使用loss来定义损失函数，是要确定优化的目标是什么，然后以目标为头，才可以进行链式法则和反向传播。

调用loss.backward方法时候，Pytorch的autograd就会自动沿着计算图反向传播，计算每一个叶子节点的梯度（如果某一个变量是由用户创建的，则它为叶子节点）。使用该方法，可以计算链式法则求导之后计算的结果值。

optimizer.step用来更新参数，就是图片中下半部分的w和b的参数更新操作。

参考

[1Pytorch optimizer.step() 和loss.backward()和scheduler.step()的关系与区别
[2]torch代码解析为什么要使用optimizer.zero_grad()

Einstellung 博客专家

发布了189 篇原创文章 · 获赞 233 · 访问量 36万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Einstellung/article/details/102636986

Pytorch中的optimizer.zero_grad和loss和net.backward和optimizer.step的理解

理解optimizer.zero_grad(), loss.backward(), optimizer.step()的作用及原理

optimizer.zero_grad(), loss.backward(), optimizer.step()的理解及使用

model.train()、model.eval()、optimizer.zero_grad()、loss.backward()、optimizer.step作用及原理详解【Pytorch入门手册】

Pytorch 中model.zero_grad 和optimizer.zero_grad等效

Pytorch optimizer.step() 和loss.backward()和scheduler.step()的关系与区别（Pytorch 代码讲解）

optimizer和loss.backward()相关函数

torch代码解析--optimizer.zero_grad

Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

pytorch迁移学习中parameters requires_grad=False和optimizer优化参数的探讨

torch代码解析为什么要使用optimizer.zero_grad()

pytorch GradScaler() 出现 UserWarning: Detected call of lr_scheduler.step() before optimizer.step().

Pytorch加载模型后optimizer.step()报RuntimeError: output with shape...错误

torch之optimizer.step() 与 scheduler.step() 的用法

TensorFlow中Optimizer.minimize()与Optimizer.compute_gradients()和Optimizer.apply_gradients()的用法

with torch.no_grad()和backward()

Pytorch中的optimizer

pytorch中的lr,optimizer

pytorch中的 requires_grad和volatile

Pytorch中的Variable和variable.backward()

【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero Redundancy Optimizer 和 ZeRO-Offload

tensorflow Optimizer.minimize()和gradient clipping

Spark Optimizer 规则详解和示例

pytorch使用笔记|torch.optim模块简介（内含optimizer和lr_schedular）

[源码解析] PyTorch 分布式(14) --使用 Distributed Autograd 和 Distributed Optimizer

Optimizer sgd loss Metrics

Hinge Loss 和 Zero-One Loss

pytorch中的Optimizer的灵活运用

pytorch中required_grad和detach的澄清

关于Pytorch中autograd和backward的一些笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)