GPT实战系列-大话LLM大模型训练

GPT模型生成文本序列是通过预测下一个 token 的方式来实现。目前预训练模型的格局，OpenAI独占鳌头，Google 和 Meta 跟随其后，仍有一定距离。大模型的训练基本都遵循分阶段训练过程。

先用大规模语料对模型进行预训练，训练处基模型

预训练的模型输入，是获取 tokenize 处理后的文本，打包成行，用 <|endoftext|> 来对不同的文档进行分隔。<|endoftext|> 是模型在训练期间看到的文档分隔符。

以莎士比亚的作品数据集训练过程为例，模型刚开始训练，参数是随机初始化的，预测结果也是完全随机的。但是随着训练的不断迭代，观察迭代250次，500次，5000次，30000次的模型生成文本在不断收敛，达到一定程度后，模型就能生成连贯一致的文本序列。

训练分为两个主要阶段，预训练阶段是基于大量无标注的数据集，生成的基模型学习强大的通用表达特征。微调阶段，在基模型基础上，根据感兴趣的领域，用少量标注数据集训练。分阶段训练能极大降低微调需要的数据量。
对话模型需要对人类的指令或问题进行回复，但预训练的基模型只是完成文档文本，无法直接回答问题。
但是可以通过生成文档的提示，来引导预训练的基模型的生成文档文本，然后把生成文档文本组装成对话，上面的方法来使得预训练模型做对话模型。

OpenAI 的 ChatGPT 实现方案

首先进行监督微调训练 SFT (supervised finetuning)，基于少量人工标注的数据进行微调，训练数据集主要是问答对 (1 万到10 万量级)。
SFT 数据示例，prompt 是提问，response 是标注的示例回复。标注文档需要满足有益，可信，无害，符合道德与法规等约束。

强化学习 RLHF，基于上一步 RM 模型进行强化学习训练。评价模型的奖励来调整模型生成语言建模的目标。比如第1个回答的 reward 高，第1个回答采取的所有 token 将得到强化，未来将会获得更高的采取概率，其他回答的 token 之后会获得更低的采取概率。

预训练模型，SFT 模型和 RLHF 模型理论上都可以用于 GPT 对话模型部署。选择用 RLHF 的一个简单的原因就是 RLHF 模型效果更好，模型生成的答案更让人类喜欢。
RLHF 更有用的原因是判别比生成更容易，让标注员去写 SFT 的问答数据对会比较困难，但如果让标注员判断 SFT 模型生成答案哪个更好，就简单的多。
加州伯克利大学做一个模型评测榜单 Leaderboard，GPT4 最强。前三个都是 RLHF 模型，其他模型都是 SFT 模型。

觉得有用 收藏收藏收藏

点个赞点个赞点个赞

End

GPT专栏文章：

GPT实战系列-Baichuan2等大模型的计算精度与量化-CSDN博客