EMA训练微调 - 代码天地

EMA训练微调

企业开发 2023-12-17 00:08:07 阅读次数: 0

就是取前几个epoch的weight的平均值，可以缓解微调时的灾难性遗忘（因为新数据引导，模型权重逐渐，偏离训练时学到的数据分布，忘记之前学好的先验知识）
在这里插入图片描述

class EMA():
    def __init__(self, model, decay):
        self.model = model
        self.decay = decay  # decay rate
        self.shadow = {
    
    }  # old weight
        self.backup = {
    
    }  # new weight
 
    def register(self):  # deep copy weight for init
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                self.shadow[name] = param.data.clone()
 
    def update(self):  # ema：average weight for train
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                new_average = (1.0 - self.decay) * param.data + self.decay * self.shadow[name]
                self.shadow[name] = new_average.clone()
 
    def apply_shadow(self):  # load old weight for eval begin
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                self.backup[name] = param.data
                param.data = self.shadow[name]
 
    def restore(self):  # load new weight for eval end
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.backup
                param.data = self.backup[name]
        self.backup = {
    
    }
 
# 初始化
ema = EMA(model, 0.999)
ema.register()
 
# 训练过程中，更新完参数后，同步update shadow weights
def train():
    optimizer.step()
    ema.update()
 
# eval前，apply shadow weights；eval之后，恢复原来模型的参数
def evaluate():
    ema.apply_shadow()
    # evaluate
    ema.restore()

猜你喜欢

转载自blog.csdn.net/weixin_54338498/article/details/134700404

EMA训练微调

EMA滑动平均训练方式

预训练与微调的区别

训练过程--fineturn微调

keras 模型微调与迁移训练

chatgpt的模型训练和微调

微调预训练的 NLP 模型

NLP中的语言模型预训练&微调

使用训练好的caffemodel进行微调

CNN基础三：预训练模型的微调

Bert模型预训练和微调

使用huggingface微调预训练模型

训练自己的ChatGPT-OpenAI 微调模型

[迁移学习]预训练和微调

微调预训练模型huggingface，transformers

resnet预训练模型以及微调

微调 TrOCR – 训练 TrOCR 识别弯曲文本

特征层次分析、视觉特征语义探索（微调+预训练）

基于GoogLeNet的不同花分类微调训练案例

深度学习中预训练和微调的个人理解

18.6使用官方的slim训练模型并finetune微调

YOLACT/YOLACT++安装测试与微调训练

预训练(pre-training/trained)与微调(fine-tuning)

用NVIDIA-NGC对BERT进行训练和微调

关于深度学习训练优化，模型微调详细解读

Pytorch对预训练好的VGG16模型进行微调

LORA大模型加速微调和训练算法

预训练、微调和上下文学习

训练自己的Llama 2！大模型微调技术介绍

pytorch cv自带预训练模型再微调

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)