Pytorch训练过程中改变模型参数 requires_grad 属性 - 代码天地

Pytorch训练过程中改变模型参数 requires_grad 属性

其他 2020-03-04 00:44:16 阅读次数: 0

如果模型只在一块GPU上跑，该过程非常简单，只需要训练中途迭代model的 parameters，然后改变各个param的requires_grad 属性即可：

for name, param in model.named_parameters():
    logger.info('parameter of %s'%name)
    logger.info('before requires_grad is : %s'%param.requires_grad)
    param.requires_grad = True
    logger.info('after requires_grad is : %s' % param.requires_grad)

但是如果模型是跑在多块GPU上，就要搞清楚pytorch是如何对同一个Module对象进行分布式处理的。

可以肯定的是，pytorch将gpu_0上的模型进行复制，放到其他GPU上，可以使用DataParallel类：

model.to(device)
    if n_gpu > 1:
        model = torch.nn.DataParallel(model)

DataParallel类有一个数据成员：module，可以获得该用于复制的basic module，通过改变该basic module的参数的requires_grad 属性，即可达到模型在平行计算过程中，各个参数参与梯度回传迭代：

for name, param in model.module.named_parameters():
    logger.info('parameter of %s'%name)
    logger.info('before requires_grad is : %s'%param.requires_grad)
    param.requires_grad = True
    logger.info('after requires_grad is : %s' % param.requires_grad)

这里需要确定的是：pytorch是否是只迭代更新gpu_0上的模型的参数，然后将更新后的参数复制到其他gpu上？还是各个gpu单独迭代模型参数？如果是前者，上述操作即可完成训练过程中改变参数requires_grad 属性，如果是后者，那上面的操作只更新了gpu_0上模型的参数属性，其他gpu上的模型参数属性未更新，是错误的。

验证上述猜想：

pytorch在每次前向传播的过程中，都会将主GPU上的模型，分发给各个GPU上，所以，梯度更新只会在主GPU上，更新模型的requires_grad 属性也只需要在主GPU上即可，参考：https://www.cnblogs.com/jfdwd/p/11466126.html

DataParallel并行计算只存在在前向传播

那如何确定哪一块GPU是主GPU？

发布了78 篇原创文章 · 获赞 4 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/wangxiaosu/article/details/104408130

Pytorch训练过程中改变模型参数 requires_grad 属性

pytorch中的 requires_grad和volatile

2018.11.14——pytorch中的grad_fn，requires_grad

pytorch学习笔记——requires_grad和volatile

pytorch笔记：06)requires_grad和volatile

Pytorch-创建requires_grad=True的tensor

PyTorch学习笔记(1)——requires_grad和autograd.no_grad

pytorch迁移学习中parameters requires_grad=False和optimizer优化参数的探讨

pytorch冻结网络参数，requires_grad与optimizer顺序的关系

关于pytorch当中的model.eval()和requires_grad=False

【PyTorch 计算图】requires_grad=True的leaf variable及其设计逻辑

小知识点系列(二十) 本文(2万字) | 解读预训练 | 微调 | 迁移 | 模型冻结与解冻 | 对比优化器optimizer与requires_grad冻结 | PyTorch断点训练 |

param.grad、requires_grad、grad_fn、grad/梯度为None？

torch.tensor默认requires_grad=False

torch.Tensor.requires_grad_(requires_grad=True)的使用说明

torch.Tensor.requires_grad属性的使用说明

pytoch 设置了requires_grad=True，但是计算梯度(grad)为none

什么时候该用with torch.no_grad()？什么时候该用.requires_grad ==False?

torch.nn.parameter 生成可更新的 tensor （requires_grad = True）

pytorch bug: a leaf Variable that requires grad has been used in an in-place operation

grad_fn 属性的作用

Tensorflow训练过程中查看某参数的值

机器学习训练过程中的模型攻击的类型

【笔记】.detach() 和.detach_()的区别：前者返回一个新的tensor，从当前计算图中分离下来，requires_grad=false；后者是对本身的修改，原来的计算图也发生了变化

论文阅读|训练过程中动态改变训练方案的Dynamic R-CNN

fortran过程中的save属性

pytorch查看模型weight与grad

模型训练过程中，混合精度训练稳定性解决方案

pytorch训练过程中loss出现NaN的原因及可采取的方法

pytorch 从头开始YOLOV3（三）：训练过程中的真值标签

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)