支持鹏程系列开源大模型应用生态演化的可持续学习能力探索

【摘 要】大规模预训练模型利用大规模语料以及多样化的预训练任务在自然语言处理领域取得了巨大的成功。随着大模型的逐步发展,大模型的可持续学习能力探索成为新的研究热点。主要介绍鹏程系列大模型持续学习的技术体系、应用实践以及面临的挑战,包括通过任务扩展、数据增量和知识推理的鹏程系列可持续学习技术体系,开源大模型鹏程·盘古多任务可持续学习和鹏程·通言大模型的可持续学习能力实践,大模型可持续学习过程中面临的词表更新、语义映射和知识冲突等挑战。

【关键词】鹏程系列大模型 ; 可持续学习 ; 鹏程·盘古 ; 鹏程·通言 ; 开源大模型

0 引言

近年来,鹏程系列大规模预训练语言模型(简称鹏程系统大模型)通过自监督学习的训练方式从海量语料中学习文本的上下文表示,并通过针对特定任务的小样本学习,在自然语言理解和自然语言生成等任务上都取得了惊艳的成果。

大模型具有两个显著的特点,一是模型结构足够深且参数规模庞大,二是预训练过程中伴随着多种预训练任务以保证大规模语料的有效利用。随着谷歌发布具有1~3亿参数规模的预训练的 BERT 模型,大规模预训练模型正式进入自然语言处理领域并开始蓬勃发展。随后几年,国内外研究机构发布的预训练模型的参数规模不断增长,依次出现了XLM(约2亿)、RoBERTa (约3.5亿)、MT5(约7亿)、GPT-3(约1 750亿)、华为盘古大模型(约1 000亿)、鹏程•盘古-α大模型(约2 000亿),谷歌switch transformers (约1.6万亿)、智源悟道2.0(约1.75万亿)以及阿里达摩院M6(约1万亿)等大规模预训练

猜你喜欢

转载自blog.csdn.net/weixin_70923796/article/details/134916521