截至目前最强的70亿参数大语言模型:开源可商用的RedPajam 7B完全版发布!

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日,TOGETHER在官方宣布该模型完成训练,经过测试,该模型目前超过所有7B规模的大模型,比LLaMA-7B和Falcon-7B的效果还要好!

TOGETHER公司是一家由豪华管理团队组成的创业公司,由苹果公司前高管、斯坦福大学教授等一起创办。其目标是提供大型生成式模型的基础设施。

RedPajama是一个开源大模型项目,有TOGETHER联合多家公司发起。目前包括一个开源的数据集,有1.2万亿tokens,严格按照LLaMA模型论文中的方法收集。另外,还包括2个开源大模型,一个是RedPajama 3B,于5月5日宣布训练结束,可以在RTX 2070上使用。另一个模型就是本文提到的RedPajama 7B,在昨天宣布完成训练,效果超越目前所有同等规模的模型。

  RedPajama 3B模型信息卡:

https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

一、RedPajama数据集简介

4月17日,TOGETHER发布了RedPajama项目,被大众所熟知。该项目希望建立一个开源的大语言模型,其第一步是重现LLaMA论文中提到的高质量预训练数据集。他们认为,高质量的大规模预训练数据集是大模型训练必要条件。而MetaAI开源的LLaMA模型可以理解为开源最强大模型。但是,他们仅仅开源了预训练结果,且不允许商用。而RedPajama则根据MetaAI的论文自己收集了这样的一个数据集。

因此,他们开源了1.2万亿tokens的RedPajama数据集。这是一个5TB大小的数据集,按照LLaMA论文描述的内容收集。目前已经被下载了几千次,而且用于超过100个模型的训练。

二、RedPajama 7B模型简介

4月23日,也就是RedPajama数据集发布1周后,TOGETHER宣布他们基于这个1.2万亿tokens的数据集正在训练一个叫RedPajama-7B模型,完成了40%的训练,但是效果已经超越Pythia-7B。这证明了大规模高质量预训练数据集的价值。

5月5日,RedPajama-7B模型的训练过程进行到80%,但是效果出乎意料,因此TOGETHER发布了0.1版本的RedPajama 7B,包含3个版本:基础大模型、基于chat微调的以及基于指令微调的。

RedPajama-7B v0.1版本 预训练下载链接
RedPajama-INCITE-Base-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1
RedPajama-INCITE-Chat-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1
RedPajama-INCITE-Instruct-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1

这里的Base模型是基础大语言模型,采用Pythia模型一样的架构,但是基于RedPajama数据集训练,而Chat则是基于Base模型训练进行指令微调的结果(基于Dolly2和OASST微调),Chat版本模型已经可以在OpenChatKit使用。Instruct则是基于Base模型针对few-shot prompts微调的结果。在很多NLP任务中微调(来自P3和Natural Instruction)。

今天,TOGETHER宣布RedPajama 7B完成所有训练。完整版本的3个RedPajama模型全部开源:

RedPajama-7B v1.0版本 预训练下载链接
RedPajama-INCITE-7B-Base https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base
RedPajama-INCITE-Chat-7B https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat
RedPajama-INCITE-Instruct-7B https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct

上述模型均使用Apache2.0开源协议,完全开源可商用!

三、RedPajama 7B模型的效果

TOGETHER在HELM任务上做了评估。使用的是RedPajama-INCITE-Instruct-7B,从结果看,HELM平均得分上,RedPajama 7B Instruct0.492,超过LLaMA 7B的0.472和前段时间最强开源模型Falcon 7B的0.407。

RedPajama第二代模型即将登场

除了上述RedPajama 7B模型的开源外,官方还宣布了RedPajama V2版本的消息。RedPajama 2将在2-3万亿tokens数据集上训练。主要有以下规划:

  1. 准备基于DoReMi这样的技术自动学习不同数据的混合。

  2. 引入Pile v1(来自Eleuther.ai)和Pile v2(CrperAI)等数据集,提高训练数据多样性

  3. 处理更多的CommonCrawl数据集

  4. 使用更好的数据去重复策略

  5. 引入至少1500亿tokens的代码数据集。

而根据官方的描述RedPajama 2将继续开源!

RedPajama背后的INCITE超级计算机资助

RedPajama项目背后离不开美国国家科学基金会的一个INCITE项目,它通过资助申请者的DOE超级计算机使用时间来降低大家对超大规模计算资源的使用门槛。RedPajama总共使用了3072个V100的GPU进行训练。

可以看到,超级计算机的项目资助对于促进这样的大模型训练来说很重要。目前不知道国内是否有这样的资源可以供大家申请使用。如果有,这也许也会推动国内大模型的发展!

猜你喜欢

转载自blog.csdn.net/weixin_48827824/article/details/131289006