为什么需要每次计算梯度都要清空

其他 2020-02-26 14:34:07 阅读次数: 0

为什么需要每次计算梯度都要清空

`待办`

根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。

其实这里还可以补充的一点是，如果不是每一个batch就清除掉原有的梯度，而是比如说两个batch再清除掉梯度，这是一种变相提高batch_size的方法，对于计算机硬件不行，但是batch_size可能需要设高的领域比较适合，比如目标检测模型的训练。

关于这一点可以参考：https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/3

关于backward()的计算可以参考：https://discuss.pytorch.org/t/how-to-use-the-backward-functions-for-multiple-losses/1826/5

————————————————
版权声明：本文为CSDN博主「xiaoxifei」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xiaoxifei/article/details/83474724

猜你喜欢

转载自www.cnblogs.com/lishikai/p/12366779.html

为什么需要每次计算梯度都要清空

struts2为什么每次请求都要创建一个Action对象

为什么每次修改java文件都要重启服务器呢？

为什么每次圣斗士出招前都要大喊一下大招？

为什么svn每次都要输入用户名和密码（以及切换svn账号）

每次面试都要被问：为什么采用单线程的 Redis 也会如此之快？

每次面试都要被问：为什么采用单线程的Redis也会如此之快？

云计算都要学什么？学好Linux需要做些什么？

为什么学校里学习云计算或者大数据都要从hadoop开始?

为什么淘宝京东使用不是每次都需要登录？

什么是协方差，怎么计算？为什么需要协方差？

4.7 为什么 TCP 每次建立连接时，初始化序列号都要不一样呢？

TortoiseGit 每次都要

为什么需要 Mini-batch 梯度下降，及 TensorFlow 应用举例

为什么我们需要边缘计算GIS技术？

计算机为什么需要反码，补码？

学习云计算都要学什么？

什么是云计算？什么是边缘计算？为什么需要云边协同？

tips 每次eclipse里面修改了Java代码后点击运行按钮，BlackBerry模拟器每次都需要重新启动，为什么

为什么需要MiniDao?

为什么需要WAF

为什么需要堆？

为什么需要缓存

为什么需要RTTI

为什么需要Docker？

为什么需要zk

为什么需要中断?

为什么需要Maven

为什么需要SDN？

为什么需要JMM

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)