【李宏毅2022 机器学习春】hw7_BERT（占坑）

企业开发 2022-04-27 11:48:35 阅读次数: 0

文章目录

收获：

评分标准

在这里插入图片描述

实验记录

`medium`

Hyper parameter: max_question 40/ max_paragraph 350/ doc_stride 300

##### TODO: Apply linear learning rate decay #####
learning_rate = learning_rate * (1.0 / (1.0 + 0.00001 * step))

绘制的lr曲线：
在这里插入图片描述

训练技巧

fp16_training

在这里插入图片描述

官方示例：
在这里插入图片描述

Gradient accumulation

from: https://kozodoi.me/python/deep%20learning/pytorch/tutorial/2021/02/19/gradient-accumulation.html

# batch accumulation parameter
accum_iter = 4  

# loop through enumaretad batches
for batch_idx, (inputs, labels) in enumerate(data_loader):

    # extract inputs and labels
    inputs = inputs.to(device)
    labels = labels.to(device)

    # passes and weights update
    with torch.set_grad_enabled(True):
        
        # forward pass 
        preds = model(inputs)
        loss  = criterion(preds, labels)

        # normalize loss to account for batch accumulation
        loss = loss / accum_iter 

        # backward pass
        loss.backward()

        # weights update
        if ((batch_idx + 1) % accum_iter == 0) or (batch_idx + 1 == len(data_loader)):
            optimizer.step()
            optimizer.zero_grad()

收获：

训练得更快：fp16_training
更大的batch：Gradient accumulation

线性学习率下降：

from transformers import get_linear_schedule_with_warmup # 在https://huggingface.co/transformers/下，不在pytorch官网
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps= 0, # Default value
                                                num_training_steps=total_steps) # 把num_warmup_steps=0就可以实现线性下降

又见到Hugging Face这个库：https://huggingface.co/

猜你喜欢

转载自blog.csdn.net/weixin_43154149/article/details/124417296

【李宏毅2022 机器学习春】hw7_BERT（占坑）

【李宏毅2022 机器学习春】占坑

【李宏毅2022 机器学习春】hw8_ Autoencoder（占坑）

李宏毅2022机器学习HW7解析

李宏毅2022机器学习HW8解析

李宏毅2022机器学习HW10解析

李宏毅2022机器学习HW12解析

李宏毅2022机器学习HW11解析

李宏毅2022机器学习HW9解析

李宏毅2022机器学习HW6解析

李宏毅2022机器学习HW5解析

李宏毅2022机器学习HW4解析

李宏毅2022机器学习HW3解析

李宏毅2022机器学习HW2解析

【李宏毅2022 机器学习春】2022-作业说明hw3

【李宏毅2022 机器学习春】utils

【李宏毅2022 机器学习春】hw3_CNN（Boss baseline）

【李宏毅2022 机器学习春】hw2_Classification（strong baseline）

【李宏毅2022 机器学习春】hw1_Regression（strong baseline）

【李宏毅2022 机器学习春】hw5_Transformer（跳过）

【李宏毅2022 机器学习春】hw6_GAN（不懂..）

【李宏毅2022 机器学习春】hw9_Explainable AI（搬运）

李宏毅机器学习2022春季-第七课和HW7

【李宏毅2022 机器学习春】hw4_Self-Attention（接近 strong baseline，等待改进中）

李宏毅机器学习2022春季-第十三课和HW13

李宏毅机器学习2022春季-第十二课和HW12

李宏毅机器学习2022春季-第十一课和HW11

李宏毅机器学习2022春季-第十四课和HW14

李宏毅机器学习2022春季-第十课和HW10

李宏毅机器学习2022春季-第九课和HW9

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)