Este artigo resume o modelo de linguagem grande de código aberto, todos podem ter seu próprio ChatGPT

prefácio

Desde que o ChatGPT lançado pela OpenAI se tornou popular em todo o mundo, as empresas globais de Internet seguiram uma após a outra, anunciando seus próprios produtos de bate-papo, como Bard do Google, Wenxin Yiyan do Baidu, Tongyi Qianwen de Ali e assim por diante.

Esses produtos de bate-papo são todos dependentes do modelo de linguagem grande (Large Language Model).

Se for um produto de Chat em um campo vertical, há duas opções:

Use produtos comerciais diretamente, desde que os produtos comerciais suportem o ajuste fino do modelo. Por exemplo, o OpenAI oferece suporte ao ajuste fino de seu modelo básico para realizar um modelo personalizado.
Use o modelo de linguagem grande de código aberto e ajuste o modelo de código aberto para realizar produtos de bate-papo no campo vertical.

Este artigo enfoca o modelo de linguagem grande de código aberto com grande valor de referência, para que todos possam encontrar rapidamente o modelo de código aberto adequado para seus cenários de aplicativo.

Modelo de linguagem grande de código aberto

Modelo	autor	Valor do parâmetro	Quantidade de dados de treinamento (tokens)	custo de treinamento
LLaMA	meta	Incluindo 4 escalas de parâmetros de 7 bilhões, 13 bilhões, 33 bilhões e 65 bilhões	1,4 trilhões	GPUs 2048 A100
Alpaca	Stanford	7 bilhões	52k dados de instrução de perguntas e respostas, os dados de instrução vêm dos resultados de retorno da API do OpenAI	Custo de dados de US$ 500 + custo de treinamento de US$ 100
vicunha	UC Berkeley, CMU, Stanford, UCSD e MBZUAI	13 bilhões	70k dados de instrução de perguntas e respostas, os dados de instrução vêm dos registros de diálogo compartilhados pelos usuários	$ 300
coala	UC Berkeley	13 bilhões	500 mil perguntas e respostas de dados de função de gravação direta, dados de instrução vêm de conjuntos de dados públicos online	Em uma plataforma de computação em nuvem pública, o custo de treinamento esperado não passa de US$ 100. Um servidor Nvidia DGX com 8 GPUs A100 leva 6 horas para treinar por 2 épocas.
Dolly 2.0	Databricks	12 bilhões	15k dados de instrução de perguntas e respostas, dados de instrução vêm de funcionários da Databricks	menos de $ 30
Chat GLM	Laboratório KEG da Universidade de Tsinghua e Zhipu AI	2 escalas de parâmetros de 6 bilhões e 130 bilhões	Cerca de 400 bilhões, tokens chineses e ingleses são 200 bilhões cada	milhões de RMB
Pengcheng · Pangu α	Pengcheng Lab, Huawei	26亿、130亿和2000亿共3种参数规模	2500亿	2048 块昇腾处理器

开源模型有几个注意点：

第一，LLaMA由Meta开源，LLaMA目前仅用于学术、社会公益项目，不能用于商业化项目。
第二，Alpaca, Vicuna, Koala基于LLaMA衍生而来，是在LLaMA大语言模型基础上做了fine-tune得到的，因此训练成本极低，只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的训练成本很低，因为站在了LLaMA这个巨人的肩膀上。另外，这几个模型由于本质上还是LLaMA，受限于LLaMA的license限制，同样不能用于商业化目的。
Dolly 2.0是在EleutherAI pythia模型衍生而来，指令微调的数据集称为 databricks-dolly-15k，也已开源发布，包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据，专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据（Creative Commons Attribution-ShareAlike 3.0 Unported License）的许可条款，任何人都可以出于任何目的使用、修改或扩展此数据集，包括商业应用。
国内目前开源的主要就是清华主导的ChatGLM，以及华为和鹏程实验室主导的盘古alpha模型。

训练模型

如果拿大语言模型做训练，而不是简单的指令微调，那训练成本非常高昂，比如ChatGPT训练一次的成本在140万美元左右。

最近微软开源了DeepSpeed，可以加速大语言模型的训练，将ChatGPT 1750亿参数模型的训练成本降低到5120美元左右。

其本质是一个开源深度学习训练优化库，可以加速ChatGPT模型的训练，比目前最快的训练方法快大约15倍，如果想自己训练大语言模型的可以参考下。

总结

GPT模型现在真的是日新月异，很多是基于基础模型，结合问答的指令数据对模型做微调而得到的。

现在很多媒体报道的时候喜欢夸大，大家不要看到冒出一个新的开源模型就觉得多么厉害了，绝大部分都是站在巨人肩膀上做了微调而来的。

上面开源大语言模型的表格也会持续更新，欢迎大家关注下面的开源地址。

开源地址

持续更新的开源大语言模型开源地址： ChatGPT模型教程。

公众号：coding进阶。

个人网站：Jincheng's Blog。

知乎：无忌。