prefácio
Desde que o ChatGPT lançado pela OpenAI se tornou popular em todo o mundo, as empresas globais de Internet seguiram uma após a outra, anunciando seus próprios produtos de bate-papo, como Bard do Google, Wenxin Yiyan do Baidu, Tongyi Qianwen de Ali e assim por diante.
Esses produtos de bate-papo são todos dependentes do modelo de linguagem grande (Large Language Model).
Se for um produto de Chat em um campo vertical, há duas opções:
- Use produtos comerciais diretamente, desde que os produtos comerciais suportem o ajuste fino do modelo. Por exemplo, o OpenAI oferece suporte ao ajuste fino de seu modelo básico para realizar um modelo personalizado.
- Use o modelo de linguagem grande de código aberto e ajuste o modelo de código aberto para realizar produtos de bate-papo no campo vertical.
Este artigo enfoca o modelo de linguagem grande de código aberto com grande valor de referência, para que todos possam encontrar rapidamente o modelo de código aberto adequado para seus cenários de aplicativo.
Modelo de linguagem grande de código aberto
Modelo | autor | Valor do parâmetro | Quantidade de dados de treinamento (tokens) | custo de treinamento |
---|---|---|---|---|
LLaMA | meta | Incluindo 4 escalas de parâmetros de 7 bilhões, 13 bilhões, 33 bilhões e 65 bilhões | 1,4 trilhões | GPUs 2048 A100 |
Alpaca | Stanford | 7 bilhões | 52k dados de instrução de perguntas e respostas, os dados de instrução vêm dos resultados de retorno da API do OpenAI | Custo de dados de US$ 500 + custo de treinamento de US$ 100 |
vicunha | UC Berkeley, CMU, Stanford, UCSD e MBZUAI | 13 bilhões | 70k dados de instrução de perguntas e respostas, os dados de instrução vêm dos registros de diálogo compartilhados pelos usuários | $ 300 |
coala | UC Berkeley | 13 bilhões | 500 mil perguntas e respostas de dados de função de gravação direta, dados de instrução vêm de conjuntos de dados públicos online | Em uma plataforma de computação em nuvem pública, o custo de treinamento esperado não passa de US$ 100. Um servidor Nvidia DGX com 8 GPUs A100 leva 6 horas para treinar por 2 épocas. |
Dolly 2.0 | Databricks | 12 bilhões | 15k dados de instrução de perguntas e respostas, dados de instrução vêm de funcionários da Databricks | menos de $ 30 |
Chat GLM | Laboratório KEG da Universidade de Tsinghua e Zhipu AI | 2 escalas de parâmetros de 6 bilhões e 130 bilhões | Cerca de 400 bilhões, tokens chineses e ingleses são 200 bilhões cada | milhões de RMB |
Pengcheng · Pangu α | Pengcheng Lab, Huawei | 26亿、130亿和2000亿共3种参数规模 | 2500亿 | 2048 块昇腾处理器 |
开源模型有几个注意点:
-
第一,LLaMA由Meta开源,LLaMA目前仅用于学术、社会公益项目,不能用于商业化项目。
-
第二,Alpaca, Vicuna, Koala基于LLaMA衍生而来,是在LLaMA大语言模型基础上做了fine-tune得到的,因此训练成本极低,只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的训练成本很低,因为站在了LLaMA这个巨人的肩膀上。另外,这几个模型由于本质上还是LLaMA,受限于LLaMA的license限制,同样不能用于商业化目的。
-
Dolly 2.0是在EleutherAI pythia模型衍生而来,指令微调的数据集称为 databricks-dolly-15k,也已开源发布,包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据,专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的许可条款,任何人都可以出于任何目的使用、修改或扩展此数据集,包括商业应用。
-
国内目前开源的主要就是清华主导的ChatGLM,以及华为和鹏程实验室主导的盘古alpha模型。
训练模型
如果拿大语言模型做训练,而不是简单的指令微调,那训练成本非常高昂,比如ChatGPT训练一次的成本在140万美元左右。
最近微软开源了DeepSpeed,可以加速大语言模型的训练,将ChatGPT 1750亿参数模型的训练成本降低到5120美元左右。
其本质是一个开源深度学习训练优化库,可以加速ChatGPT模型的训练,比目前最快的训练方法快大约15倍,如果想自己训练大语言模型的可以参考下。
总结
GPT模型现在真的是日新月异,很多是基于基础模型,结合问答的指令数据对模型做微调而得到的。
现在很多媒体报道的时候喜欢夸大,大家不要看到冒出一个新的开源模型就觉得多么厉害了,绝大部分都是站在巨人肩膀上做了微调而来的。
上面开源大语言模型的表格也会持续更新,欢迎大家关注下面的开源地址。
开源地址
持续更新的开源大语言模型开源地址: ChatGPT模型教程。
公众号:coding进阶。
个人网站:Jincheng's Blog。
知乎:无忌。