全球大模型发展整体态势,暗流涌动下的机遇

原创 | 文 BFT机器人 

图片

(一)大模推动能“涌现”,打开AI术发展上限

人工智能大模型,是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的模型。

技术层面上,大模型的实现采用“预训练+指令微调+人类反馈的强化学习”的训练范式。

首先通过预训练技术将深度学习网络在海量数据上进行自监督训练,然后利用指令数据进行有监督指令微调,提升模型对人类指令的追随能力,最后,基于由人类价值标注数据训练得到的奖励模型所提供的奖励信息进行强化学习,控制大模型的输入符合人类价值判断。

在大模型使用时,通过设计提示进行即时学习可以进一步提升大模型完成各类任务的能力。规模化是使大模型强大的重要原因,研究表明当模型规模足够大的时候,会“涌现”智能能力,具备处理新的、更高层次的特征和模式的能力,能够为一系列下游任务带来更好的任务效果。

大模型不断扩大的规模由“量变”引发“质变”,模型通用认知能力不断提升大模型能力的迅速发展不仅有助于人类完成“规定动作”还可能帮助人类去研究和发现未知领域,突破人类过去没有突破过的极限。

大模型的技术变革呈现数据巨量化、模型通用化、应用模式中心化的特点。整个发展历程可划分为三个阶段。

2013-2018年的深度学习阶段,主要还是基于传统的“针对特定任务的专用模型+大量标注数据”方式,在监督学习的机制下训练得到一个个专用小模型,但是在词向量的自监督学习中,使用大规模数据进行预训练的方法已初见端倪2017年Transformer的提出为基础架构带来了规模化构建和规模化运算的潜力。

Transformer解决了RNN和LSTM的并行化训练和长距离依赖问题,解决了CNN的局部归纳偏差问题能够容纳更多的参数规模,并且具备更强的语义特征提取能力、长距离特征捕获能力、综合特征提取能力。

2018年-2022年的预训练阶段,基于“海量无标注数据”,在自监督学习机制下获得预训练大模型,通过少量标注数据微调后得到领域专用模型。自监督学习机制的成功使得可利用的数据愈发“巨量化”,从标注数据拓展到无标注数据。

Bert将可利用的预训练数据量扩大3到5倍,成为自然语言理解任务中的基准模型。自此,“预训练+微调”的学习范式成为主流。在通用大模型上通过少量标注数据微调,即可适用于一系列下游任务。

2022年下半年以来的大语言模型阶段,预训练大模型的通用能力愈发强大,引入指令监督训练使得模型能更好地追随人类指令完成各种任务,并提升了在下游任务上的泛化能力,通过人类反馈学习让机器与人类价值对齐成为可能。

(二)大模型变革内容生产和技术服务模式,“无限生产”推动生产效率颠覆式提升

内容生产方面,生成式大模型率先在内容创作、图像生成、数字人、游戏等娱乐媒体领域广泛应用,内容生产效率和质量显著提升,内容生产模式从辅助人到“替代”人演变据Gartner预测,至2023年底,将有20%的内容被生成式大模型所创建;至 2025 年底,生成式大模型产生的数据将占所有数据的10%。

技术服务方面,大模型的“无限生产”能力重塑企业生产引擎。随着大模型能力的不断提升,AI Agent成为重要发展趋势。

未来,大模型将不仅仅是一种生产工具更多是作为企业“合作者”,持续为企业注入生产动能。

(三)大模作为新的“根”基础设施,驱动AI范式变革

大模型实现模型生产从“作坊式”到“流水线”的升级大模型出现以前,AI模型是“定制化、场景化”的开发方式针对特定应用场景需求训练一个个小模型,模型难以复用和积累,导致AI落地的高门槛、高成本与低效率。大模型实现基础模型底座的标准化开发和泛在化应用,解决成本困境。

通用大模型通过从海量的、多场景、多领域的数据中学习共性知识,成为具有通用性和泛化能力的模型底座。基于通用大模型底座可搭建各行业的垂类大模型,可以有效缩减垂类大模型训练所需要的算力和数据量,缩短模型的开发周期,提升垂直领域的应用开发效率

OpenAI以GPT4通用大模型为底座,通过快速增量训练和个性化微调的方式,允许普通用户通过简易对话界面自定义定制GPT,支持开发者采用私有数据对GPT进行个性化微调,使大模型更易于访问和开发,产品形态更加丰富,以满足更广泛的市场需求。

(四)中美是大模型技术领域的主要“玩家”,大模型市场竞争持续深入

2023年5月发布的《中国人工智能大模型地图研究报告》指出,美国和中国发布的通用大模型总数已占全球发布量的80%。

美国方面,形成了OpenAI+微软、Meta、谷歌等多个“阵营”,OpenAI重点围绕GPT4底座模型完善上层开发者生态Meta 通过开源LLaMa等大模型,引领了全球大模型开源浪潮我国方面,大模型再次诠释中国速度。

截至2023年10月,我国10亿参数规模以上的大模型厂商及高校院所共计254家,分布于20余省市/地区。

中国工程院院士郑纬民指出,美国作为全球科技霸主一直引领人工智能领域发展前沿,整个大模型的产业布局全面领先,在研发能力、人才储备、硬件设施及融资环境方面占据优势。

相较而言,中国占据海量数据资源和应用场景优势,但顶尖的AI人才缺乏,在基础理论、原创模型等颠覆型、阶跃型技术方面仍缺乏引领能力。产业基础层的整体实力较弱,高质量数据积累不足,在高端芯片、关键基础软件等领域受制于美国。

总结

现在,全球大模型发展呈现出多种态势,包括参数竞赛进入冷静期、基础模型受到关注、跨学科应用、与人工智能其他技术的结合、数据隐私和安全问题以及伦理和公平性问题等。这些发展态势为大模型的进一步应用和研究提供了新的机遇和挑战。

而在这种大背景下,大模型产品层出不穷,各大推手底下暗流涌动,未来,谁会是场竞争的最后胜利者,我们可以拭目以待。

注:若您对该文章内容有任何疑问,请与我们联系,将及时回应。

猜你喜欢

转载自blog.csdn.net/Hinyeung2021/article/details/134777085
今日推荐