pytorch固定参数-模型的pretrain和fine-tune - 代码天地

pytorch固定参数-模型的pretrain和fine-tune

其他 2020-10-19 16:45:29 阅读次数: 0

翻了很多博客和论坛，一般冻结参数都包括两步：

设置参数的属性为False，即requires_grad=False
定义优化器时过滤掉不进行梯度更新的参数，一般都是这样

optimizer.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-3)

上面就不细讲了，百度大部分都是这种。

先说下我的任务：

我有一个模型由encoder和decoder组成，在预训练时固定decoder的参数，只训练encoder的参数。然后在fine-tune的时候训练所有的参数。

问题：

按照上面的方法，在重新加载模型时会报长度不一致的错误。

ValueError: loaded state dict contains a parameter group that doesn't match the size of optimizer's group

调试了半天发现我加载的模型只保存了encoder部分的参数，但是新的模型是encoder和decoder两部分的参数。所以无法将预训练的参数加载到新的模型里。

解决方法：

只设置参数的属性是True/False，不用过滤优化器中的参数，这样长度就会一致了。

而且在预训练过程中固定的参数确实没有被更新，在fine-tune的时候所有的参数都被更新了，正好符合我们要求。

附上我调式的过程：

预训练：只修改属性，不过滤参数

    for param in model.parameters():
        param.requires_grad = False
    for param in model.encoder.parameters():
        param.requires_grad = True

输出两次更新的参数，可以发现确实只有encoder更新了，decoder没有被更新。

fine-tune:

    for param in model.parameters():
        param.requires_grad = True

同样输出两次更新的参数，可以发现decoder的参数也被更新了。over!

猜你喜欢

转载自blog.csdn.net/Answer3664/article/details/104874243

pytorch固定参数-模型的pretrain和fine-tune

pytorch fine-tune 预训练的模型

Pytorch—模型微调（fine-tune）

pytorch参数初始化以及fine-tune

TensorFlow BERT fine-tune 训练中断解决办法或使用开源模型继续fine-tune 参数配置

Pytorch-HED fine-tune实现

【LLM】语言模型微调 fine-tune

大模型fine-tune 微调

迁移学习和fine-tune的区别

fine-tune

Fine-tune 的简介

SSD: Single Shot MultiBox Detector 模型fine-tune和网络架构

使用 Docker 和 Alpaca LoRA 对 LLaMA 65B 大模型进行 Fine-Tune

迁移学习、fine-tune和局部参数恢复

干货 | 谷歌BERT模型fine-tune终极实践教程

干货 | 谷歌BERT模型fine-tune终极实践教程

MXNET教程Fine-Tune训练图像分类模型

谷歌BERT模型fine-tune终极实践教程

yolov3模型微调(fine-tune)备忘

Java实现OpenAI 模型训练（fine-tune）

AllenNLP实践——fine-tune

微调(Fine-tune)原理

浅谈feature-based 和 fine-tune

(八）fine_tune导入已有模型+参数快照恢复+固定低层训练高层

caffe下fine-tune的demo

caffe fine-tune微调网站备用

迁移学习&Fine-tune Training

使用caffe fine-tune一个单标签图像分类模型

《Caffe windows 下进行（微调）fine-tune 模型》读书笔记

cs231n-(9)迁移学习和Fine-tune网络

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)