LLM:finetune预训练语言模型

模型训练

GPT-2/GPT and causal language modeling

用的模型

AutoModelForCausalLM

[examples/pytorch/language-modeling#gpt-2gpt-and-causal-language-modeling]

[examples/pytorch/language-modeling/run_clm.py]

示例:

[colab.research.google.com/Causal Language modeling]

RoBERTa/BERT/DistilBERT and masked language modeling

[examples/pytorch/language-modeling#robertabertdistilbert-and-masked-language-modeling]

[examples/pytorch/language-modeling/run_mlm.py]

用的模型

AutoModelForMaskedLM,具体可以是BertForMaskedLM

run_mlm.py中可能需要改的:
1 max_seq_length的读取和设置默认是1024,如果和模型不同,可能需要修改。
2 有将多条文本拼接成max_seq_length长度的逻辑,tokenized_datasets = tokenized_datasets.map(group_texts...),这个看情况要去掉。

3 这里​AutoModelForMaskedLM/BertForMaskedLM只预训练mlm任务而没有nsp任务。如果要加上nsp任务,需要使用BertForPreTraining。mlm任务没有下面这些参数,也更不能训练了:bert.pooler.dense.weight;bert.pooler.dense.bias;cls.seq_relationship.weight;

猜你喜欢

转载自blog.csdn.net/pipisorry/article/details/131170284