GPT-4被破解!数智时代加持,低代码开发助力AI模型架构逐步演进

说在前面

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。

背景

随着数智时代的到来,AI技术在各行各业中扮演着越来越重要的角色。而在AI的背后,模型架构被认为是决定其性能和效果的关键因素之一。其中,ChatGPT-4.0作为一种领先的AI技术模型,在数智时代的大背景下引起了广泛的关注。

ChatGPT-4.0的模型架构,如同一座巍然耸立的建筑,经过精心设计和优化而成。它采用了深度学习等先进技术,能够在对话过程中理解并生成富有意义的回答。这样的模型架构给人一种与真人对话一致的感觉,同时为用户提供出色的用户体验。

不仅仅是技术 

AI技术的模型架构不仅是技术手段,也代表了对人类思维和交流方式的一种理解和模拟。模型架构的优劣直接决定了AI技术的效果和适应能力。随着AI技术的不断发展,模型架构的优化也成为了研究的热点之一。

在这个背景下,低代码开发平台为AI模型架构的发展提供了新的助力。以JNPF快速开发平台为例,它为AI开发者提供了方便快捷的开发环境和工具,极大地降低了开发和调试的成本。开发人员可以通过简单的拖拽和配置,快速构建出定制化的AI模型。 体验详情:更多详情

低代码开发平台对数智时代下的AI新模型架构产生了积极正面的影响,主要体现在以下几个方面:

首先,低代码开发平台提供了更高的开发效率。AI模型架构的优化常常需要大量的实验和调试,传统的开发方式效率低下且复杂。而低代码开发平台通过简化开发流程,将开发者从繁琐的代码编写中解放出来,使其专注于模型的设计和优化,极大地提高了开发效率。

其次,低代码开发平台促进了AI模型架构的创新。传统的开发方式往往需要庞大的团队和复杂的技术支持,限制了模型架构的创新和尝试。而低代码开发平台的简洁易用的特点,使更多的开发者能够参与到AI技术的创新中来,推动了模型架构的不断演进和突破。

最后,低代码开发平台提供了更大的灵活性和可扩展性。AI技术的应用场景千变万化,对模型架构的要求也各不相同。低代码开发平台通过模块化的设计和丰富的组件库,使得开发者能够根据具体需求进行灵活的定制和扩展,为实现各种AI应用提供了更多的可能性。

小结 

综上所述,低代码开发平台在数智时代下对AI模型架构产生了积极的影响。通过高效的开发方式、促进创新和提供灵活性与可扩展性,它成为了AI技术发展中不可或缺的一部分。在未来的发展中,低代码开发平台必将继续推动AI模型架构的演进和突破,为数智时代的AI应用带来更多的惊喜与进步。

注:本文部分内容参考了国际领先思维模型和理论,并结合个人经验进行了拓展。

信息总结 

文章末尾附上信息总结

总结主要的关于GPT-4的信息(总结来自Yam Peleg的推文):

参数数量:GPT-4比GPT-3大10倍,估计参数数量在120层、1.8万亿左右。

MoE架构:即Mixture-of-Experts架构,这部分信息已经确认,OpenAI通过利用MoE架构保持一定的成本,包含16个Experts,每一个都是一个MLP.2,约1110亿参数,每个前向传播都被路由到这些专家中

MoE路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单,大约就是为每个attention共享550亿参数的方式。

推理:每一个前向传播的推理(生成一个token)需要2800亿参数以及560 TFLOPS,这与纯dense模型每次正向传递所需的约1.8万亿参数和3700 TFLOPS形成了鲜明对比。

训练数据集:GPT-4在约13万亿tokens上训练。这不是指不同的token数量,是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练,基于代码的数据集做了4次epoch训练。

GPT-4 32K:每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。

Batch Size:batch size是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI的Batch Size达到了6000万!也就是每个专家大约有750万的token数量,但是并不是每个专家都能看到所有的tokens。

并行策略:由于NVLink的限制,OpenAI训练GPT-4做了8路tensor并行,15路的pipeline并行。

训练成本:OpenAI训练GPT-4的FLOPS约2.15e25,在2.5万个A100上训练了90-100天左右时间(MFU约32%到36%),如果是一个A100约1美元,那么训练成本约6300万美元(如果现在使用H100可能只要2150万美元)。

MoE的取舍:使用MoE之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。

GPT-4的推理成本:比1750亿的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一点。估计约1k tokens要0.0049美元(128个A100)。

MOA:Multi Query Attention,和其他人一样,都是正常使用MOA。因为只需要1个head,显存大大下降,但是32K依然无法在A100 40G运行。持续batching:OpenAI使用可变的batch size和持续batching方法。可以平衡推理成本和推理速度。

Vision Multi-Modal:GPT-4的多模态部分是单独一个visiion encoder,带有cross attention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的,还不够成熟。Vision部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频,包括使用whisper翻译的脚本与抽帧结果。

推理架构:推理是在128个GPU集群上运行的,在不同的区域有不同的集群。每个节点有8个GPU,包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。

猜你喜欢

转载自blog.csdn.net/sdgfafg_25/article/details/131663696