LLM:SentencePiece(词表扩充必备工具)

背景

随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双语进行训练,LLaMA主要以英语为主要语言的拉丁语系进行训练,而Bloom使用了46种自然语言、13种编程语言进行训练。

模型 训练数据量 模型参数 训练数据范围 词表大小 分词算法 分词器(Tokenizer)后端
LLaMA 1T~1.4T tokens(其中,7B/13B使用1T,33B/65B使用1.4T) 7B~65B 以英语为主要语言的拉丁语系 32000 BBPE 基于SentencePiece工具实现
ChatGLM-6B 约 1T tokens 6B 中英双语 130528 BBPE 基于SentencePiece工具实现
Bloom 1.6TB预处理文本

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132248345