用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？

先来了解一下ChatGPT的基本情况

ChatGPT本质属于生成式人工智能，属于无监督或半监督的机器学习。与之相关的还有Discriminative modeling区分式模型，区分式模型大多属于监督式学习。

生成性人工智能目前有两种主要的框架：GAN（Generative Adversarial Network ）和GPT（Generative Pre-trained Transformer ）。

GAN目前广泛应用于图像、视频和语音生成，在医疗、自动驾驶、元宇宙等领域有实际的应用。

随着GPT-4的推出，预计生成性人工智能将再一次超越人们的预期。

GPT是”Generative Pre-trained Transformer“生成型预训练变换模型的缩写，目的是为了使用深度学习生成人类可以理解的自然语言。

一、ChatGPT的产生是量变到质变的过程，积累了很多年，涉及到算力要有多少服务器，知识库、标注等很多问题。

ChatGPT的训练成本支出巨大。据Lambda Labs首席科学官Chuan li介绍，拥有1750亿个参数的GPT-3单次训练成本达到460万美元。在知乎上，网友在讨论ChatGPT时，也都认为它很“烧钱”。因此，可以说ChatGPT是一个靠大算力、高成本，用大规模的数据“喂”出来的AI模型。

二、数据背后是广泛的应用场景，算力背后靠的是完善的信息基础设施，算法背后需要深厚的人才储备。

国内持续投入大模型研发、技术基础扎实。目前，阿里达摩院的多模态大模型M6参数量已达10万亿，是全球最大的AI预训练模型；华为盘古、百度文心等大模型的参数量都超过了千亿，其中百度文心模型参数量已经达到2600亿，不逊于GPT-3。

虽然国内外企业在算法研发上基本保持同等水平，但国内更注重大模型技术与行业场景的融合，对于数据标注和模型训练等高成本的人力投入更为谨慎。

我们真正缺乏的是技术积累，包括数据怎么清洗、标注以及模型的结构设计，怎么训练、推理，这个地方很多都需要经验和积累。

三、用大数据、大算力、强算法“喂养”

AI大模型是人工智能迈向通用智能的里程碑技术，模型可以自动从数据中学习知识，提升性能。GPT是OpenAI推出的AI大模型系列。从2018年到2022年，OpenAI先后迭代并推出了GPT-1、GPT-2、GPT-3和InstructGPT，此次发布的ChatGPT就是在GPT-3的基础上通过指令微调后得到的。

算法层面，ChatGPT的基础是世界上最强大的LLM（大语言模型）之一——GPT-3，同时引入了基于人类反馈的强化学习方法，提高了对话的质量。

AI的训练和使用也需要强大的算力支持。ChatGPT的训练是在微软云上进行的，在全球云计算市场，微软云的市场份额排名第二。高水平、高市场份额，再加上芯片技术的高速发展，这都为ChatGPT的横空出世奠定了坚实的算力基础。

除了算法和算力，AI大模型的进步迭代，需要大量的数据进行训练。2020年发布的GPT-3，其训练参数量已经达到了惊人的1750亿个，“大量的数据被反复‘喂’给ChatGPT。”

基础算力和科研支撑少不了

笔者多年来一直专注于科学计算服务器，为多所高校做过多台服务器和服务器计算集群，参与学校和院系实验室、计算中心建设，拥有专业团队和过硬的技术能力及经验，所有配置都是结合科研实际需求配置，致力于打造国产科研服务器自主品牌，不断探索国人科研工具的自力更生之路。

经过多年努力，已经成为专业的科学计算服务器、工作站、集群供应商，提供深度学习训练、量化计算、分子动力学模拟、计算生物信息学、计算流体力学、有限元分析等科研方向软硬件整体解决方案，为科研提供基础算力支撑。

最后，希望我们科研人员有更多的自主权，更宽松的科研环境，更称手的计算工具。

用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？

猜你喜欢