大模型训练的复杂度在哪

背景

大模型火出圈已经好久,然而为什么能拿出手的大模型还就是那几个。无论国内还是国外真正的拿的出手的大模型,能打的大模型都不会超过一只手。国内更是如此基本都是基于LLama或者GLM开源的参数在调,百度基本是闭源的算是一个独立自主从零开始训练模型。

理论上讲大模型需要训练的数据是知道的、模型架构也是知道的、最后的效果也是知道,甚至还有论文介绍一些思苦。对于输入输出、架构约束都是知道的这么一个系统,逆向出来应该就是一个半开卷的题目了。但为什么却一直后无来者,这个事情到底难在哪,复杂度在哪,有哪些因素带来了复现复杂度呢?

首先我们可以来分析下复杂度的来源:

1.原料:配比、不同步骤配比

2.流程:需要多少步工艺、每步需要哪些工序组合

3.每阶段如何测评

4.工序之间重复到少次

从宏观上看起来参与训练的生产要素并不算复杂,那为什么这东西逆向工程如此困难呢。静态的参与生产要求确实不复杂就4大类,但是每个参与要素的二级要素是不确定的,并且二次要素量是连续值,工序和工序组合的引入会让这个过程复杂度成次方级别增长。

什么意思呢,举个例子讲就懂了。pretrain阶段是需要什么样训练流程:先用整体的数据集合来对模型所有参数都初始化训练几轮,还是先固定一定参数来做初始化训练,如果是固定参数固定哪些参数呢,如何来评判初始化效果可以了呢,需要参与训练的数据配比大概是怎么样的呢,如何评判模型的鲁棒性保证下一阶段训练容易进行(不要把模型训练到下一阶段训练能够容许条件特别苛刻)......模型要考虑的指标除了性能指标、还要考虑一堆的系统指标、上下衔接性指标;所以知道为什么这模型不容易训练了吧。并且这东西现在还只是考虑大方向就是这事情这么做能做起来,还没考虑经济性和竞争力这些约束,啥意思呢?就是现在这还是说你只要能运作起来可以不计成本不和对手比较,如果你要考虑能不能比对手优秀,能不能在性能和经济上PK掉对手,那还要做的权衡和取舍会更大,调试难度会更高。这东西就跟高级汽车调试、大飞机发动机调试一个概念。如果你只是生产军工飞机可以不计成本能做出来就行,如果要市场Pk你必须要考虑性价比经济性,否则以上量就GG了。

原料

加工流程

测评

pretrain0

pretrain1

pretain2

......

sft

......

rlhf

技术点

从前面的介绍和分析可以看出大模型和训练和专用模型的差异了,其实就是系统工程还是单一模块工程。大模型训练用的就是系统性工程的打法,但是我们大部分人的思考思路还在用单一模块的思路,思维的惯性导致把问题考虑的简单了。国内大部分参与大模型训练的同学还是用单一模块训练的思路在做实验实践,而没有认真的思考考虑如何更上一个层次系统工程的构建这件事情,如何做好实验设计和规划来持续的推进这件事情。个人的建议是这块实验设计应该有宏观的长期的规划和设计,我觉得甚至可以参考系统工程管理做的非常出色的航空航天行业学习(需不需要做的这么重,可以结合实际情况考虑,但是这种系统工程管理设计思路是值得引入的)。

其实讲到这,技术点这部分理论是可以结束了。系统性管理那其实目标清楚了,中间的实现方案理论是可以千差万别的,针对具体的方案设计的训练流程和考核指标会有很大差异。下面只是根据我自己的一些思考设计的一些训练流程,这些都是个人一些思考和判断不一定适用所有场景。

1.pretrain先全量数据训练一轮就行(T级别token数据就行,为什么是T级别模型参数的10倍以上数据,考虑到数据重复性所以要让参数全部有解,数据至少这个级别才能每个参数都有解析解)

2.固定上层的参数,然后用判别、ner+30%全量数据训练2-3层参数(底层参数更偏表征,太多参数不容易训练)

3.全量参数,全量数据,调小学习率训练几万step(避免特定层参数和全局参数融合问题)

4.固定下层参数,然后用QA、生成+40%全量数据训练上面层参数

5.全量参数,全量数据,调小学习率训练几万step(避免特定层参数和全局参数融合问题)

.....

在训练过程中要把模型参数拿出来看参数数值分布,要去测试模型的各种能力指标,也要测试模型下一阶段的容易程度(比如迁移到下游任务训练)。

小结

1.大模型的训练是一个系统工程,不应该在简单的用单纯用专用模型的思路来设计实验,需要考虑思路升级

2.简单分析了大模型训练参与的生产要素,并尝试的分析了可能的复杂度来源

3.在技术点部分,给出了自己的一个思考并结合思考给出了一个可能的训练方案

4.大模型训练出了pretrain、sft、rlhf或许还有其它解法,因为这套三阶段的训练思路只不过是openai或者说美国科研工作者对这个事情的思考,他们摸索着吗多年这些经验我们应该参考,但是更应该思考他们到底为什么要如此设计这几个阶段,他们到底是需要让模型具备什么样的能力达到什么目的,所以才如此设计这样一套方案

猜你喜欢

转载自blog.csdn.net/liangwqi/article/details/131619757