解决pytorch的optim.load_state_dict将变量还原到CPU上的问题 - 代码天地

解决pytorch的optim.load_state_dict将变量还原到CPU上的问题

企业开发 2023-09-09 20:53:39 阅读次数: 0

最近在学习使用pytorch，遇到一个坑。

从中断的训练中继续训练需要重新加载检查点，一些优化器（比如adam）的一些变量也需要被保存到检查点中。

而在使用load_state_dict()还原时，有可能会将这些变量还原到CPU上，如下面的代码这样：

model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

像这样的话，优化器的变量就会被还原到CPU上，这在训练更新权重时会导致错误，因为模型权重在GPU上，而优化器的变量在CPU上。

造成这个问题的原因是在还原检查点之前，模型没有被转到GPU上，这样还原时，所有模型相关的变量都会被还原到CPU上。

解决办法有三。

方法一：手动转换

model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])

for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

model.cuda().train()
......

方法二：还原检查点之前，将模型转到GPU

model = Model().cuda()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

方法三：在load中设置map_location

device = torch.device("cuda")
model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path, map_location=device)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

解决方法参考的https://github.com/pytorch/pytorch/issues/2830

猜你喜欢

转载自blog.csdn.net/qq_19313495/article/details/115763765

解决pytorch的optim.load_state_dict将变量还原到CPU上的问题

pytorch:load_state_dict

PyTorch加载模型model.load_state_dict()问题，Unexpected key(s) in state_dict: “module.features..，Expected .

源码详解Pytorch的state_dict和load_state_dict

pytorch状态字典state_dict, load_state_dict torch.load 以及eval,作用，保存和加载的使用

通过实例学习Pytorch加载权重.load_state_dict()与保存权重.save()

【PyTorch】state_dict详解

遇到问题：读取模型 strict=False的意思 model.load_state_dict(state_dict, strict=False)

torch.nn.Module.load_state_dict:

pytorch和paddle的存储模型变量state_dict命名规则分析

【Pytorch】加载模型避坑坑load_state_dict中的strict使用与加载多GPU训练的模型

pytorch 状态字典:state_dict

Pytorch：Unexpected key(s) in state_dict:

pytorch error missing keys in state_dict

pytorch中的model.state_dict

解决Pytorch下报错Missing key(s) in state_dict: "resnet.conv1.0.weight",和 Unexpected key(s) in state_dict

加载模型出现in load_state_dict raise RuntimeError(‘Error(s) in loading state_dict

Error(s) in loading state_dict for ResNet 问题解决

【PyTorch】Optim 优化器

Pytorch学习（十七）--- 模型load各种问题解决

Pytorch学习--- 模型load各种问题解决

使用taskset将task绑定到指定的CPU上

linux 将进程或者线程绑定到指定的cpu上

[nlp] torch.load 和 torch.load_state_dict 有什么区别

cpu load过高问题排查

PyTorch加载模型时报错RuntimeError: Error(s) in loading state_dict for *****: Missing key(s) in state_dict:

[pytorch] 从易到难解决 MNIST 问题

Unexpected key(s) in state_dict解决方案

记录一下模型加载定义时的小trick --state_dict或torch.nn.Module.load_state_dict()的strict函数

RuntimeError: Error(s) in loading state_dict for DeepLabV3: Missing key(s) in state_dict: 的解决方法

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

timesten性能问题分析

hdu1017A Mathematical Curiosity

利用FragmentTabHost和ViewPager来实现可滑动切换的页面

哪里找卖百度云资源

大数据技能图谱

PHP设计模式（5）—— 观察者模式

python list删除元素是要注意的坑点

TPM简介

并查集擒贼先擒王//解密犯罪团伙

码农也要修身

每日归档

更多

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)