1. 开源基座模型对比
大语言模型的训练分为两个阶段:(1)在海量文本语料上的无监督预训练,学习通用的语义表示和世界知识。(2)在小规模数据上,进行指令微调和基于人类反馈的强化学习,更好地对齐最终任务和人类偏好。LIMA[1]证明了LLM的几乎所有知识都是在预训练过程中学习到的,只需要有限的指令微调数据就可以生成高质量的回复。因此,基座模型的性能是至关重要的,如果基座模型的性能不够好,指令微调和强化学习也难以取得很好的效果。
目前,主流的开源大语言模型主要有三个:LLaMA、ChatGLM和BLOOM。基于这三个开源模型,业界进行了指令微调或强化学习,衍生出了许多不同的大模型。下面从训练数据、tokenizer和模型结构上对这三个大语言模型进行比较。
模型 | 训练数据 | 训练数据量 | 模型参数量 | 词表大小 |
---|---|---|---|---|
LLaMA | 以英语为主的拉丁语系,不包含中日韩文 | 1T/1.4T tokens | 7B、13B、33B、65B | 32000 |
ChatGLM-6B | 中英双语,中英文比例为1:1 | 1T tokens | 6B | 130528 |
Bloom | 46种自然语言和13种编程语言,包含中文 | 350B tokens | 560M、1.1B、1.7B、3B、7.1B、176B | 250880 |
模型 |
---|