模型训练
GPT-2/GPT and causal language modeling
用的模型
AutoModelForCausalLM
[examples/pytorch/language-modeling#gpt-2gpt-and-causal-language-modeling]
[examples/pytorch/language-modeling/run_clm.py]
示例:
[colab.research.google.com/Causal Language modeling]
RoBERTa/BERT/DistilBERT and masked language modeling
[examples/pytorch/language-modeling#robertabertdistilbert-and-masked-language-modeling]
[examples/pytorch/language-modeling/run_mlm.py]
用的模型
AutoModelForMaskedLM,具体可以是BertForMaskedLM。
run_mlm.py中可能需要改的:
1 max_seq_length的读取和设置默认是1024,如果和模型不同,可能需要修改。
2 有将多条文本拼接成max_seq_length长度的逻辑,tokenized_datasets = tokenized_datasets.map(group_texts...),这个看情况要去掉。
3 这里AutoModelForMaskedLM/BertForMaskedLM只预训练mlm任务而没有nsp任务。如果要加上nsp任务,需要使用BertForPreTraining。mlm任务没有下面这些参数,也更不能训练了:bert.pooler.dense.weight;bert.pooler.dense.bias;cls.seq_relationship.weight;