LLM-大模型训练-步骤(一):词表扩充【sentencepiece】

GitHub项目:Chinese-LLaMA-Alpaca

由于原版LLaMA对中文的支持非常有限,本项目在原版LLaMA的基础上进一步扩充了中文词表。

  • 在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并
  • 排除重复的token后,得到的最终中文LLaMA词表大小为49953
  • 需要注意的是,在fine-tune阶段Alpaca比LLaMA多一个pad token,所以中文Alpaca的词表大小为49954

更多关于中文词表扩充的动机,可参考FAQ。如果欲了解扩充词表的具体方法,或者使用自己的词表对LLaMA tokenizer进行扩充,我们提供了代码

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131367953
今日推荐