LLM：finetune预训练语言模型

业界资讯 2023-07-28 21:32:10 阅读次数: 0

模型训练

GPT-2/GPT and causal language modeling

用的模型

AutoModelForCausalLM

[examples/pytorch/language-modeling#gpt-2gpt-and-causal-language-modeling]

[examples/pytorch/language-modeling/run_clm.py]

示例：

[colab.research.google.com/Causal Language modeling]

RoBERTa/BERT/DistilBERT and masked language modeling

[examples/pytorch/language-modeling#robertabertdistilbert-and-masked-language-modeling]

[examples/pytorch/language-modeling/run_mlm.py]

用的模型

AutoModelForMaskedLM，具体可以是BertForMaskedLM。

run_mlm.py中可能需要改的：
1 max_seq_length的读取和设置默认是1024，如果和模型不同，可能需要修改。
2 有将多条文本拼接成max_seq_length长度的逻辑，tokenized_datasets = tokenized_datasets.map(group_texts...)，这个看情况要去掉。

3 这里AutoModelForMaskedLM/BertForMaskedLM只预训练mlm任务而没有nsp任务。如果要加上nsp任务，需要使用BertForPreTraining。mlm任务没有下面这些参数，也更不能训练了：bert.pooler.dense.weight；bert.pooler.dense.bias；cls.seq_relationship.weight；

猜你喜欢

转载自blog.csdn.net/pipisorry/article/details/131170284

LLM：finetune预训练语言模型

LLM：预训练语言模型的评估

大语言模型(LLM)综述(三)：大语言模型预训练的进展

大语言模型(LLM)综述(四)：如何适应预训练后的大语言模型

pytorch使用cnn_finetune调用预训练模型

LLM预训练大型语言模型Pre-training large language models

NLP预训练语言模型

预训练语言模型（一）

预训练语言模型综述

keras 预训练模型finetune,多模型ensemble，修改loss函数，调节学习率

从零学习PyTorch 第7课模型Finetune与预训练模型

大型语言模型 (LLM) 的两条发展路线：Finetune v.s. Prompt

使用pytorch读取、使用预训练模型进行finetune：以Resnet-101为例

Tensorflow和keras使用预训练模型进行Finetune的方法及步骤详解

用pytorch实现预训练网络的finetune

NLP中的语言模型预训练&微调

NLP中的预训练语言模型（二）

预训练语言模型 | (4) AlBert

预训练语言模型 | (3) Bert

预训练语言模型 | (2) transformer

预训练语言模型 | (1) 概述

ViLBERT：视觉-语言任务预训练模型

最新《知识增强预训练语言模型》

预训练语言模型（GPT，BERT）

【深度学习】预训练语言模型-BERT

大语言模型的持续预训练

大语言模型LLM Large Language Model 的涌现Emergence 反馈强化学习 RLHF 预训练 token word embeddings 温度 temperature=0.7

大语言模型的预训练[6]：思维链(Chain-of-thought，CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应用

[NLP]LLM---FineTune自己的Llama2模型

预训练语言模型综述（三）—— 预训练语言模型的实际使用

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)