AI;预训练模型技术总结与进展(更新中)

AI;预训练模型技术总结与进展(更新中)

目录

预训练模型技术

1.系统研究超大规模智能模型发展和影响的新兴领域已经形成

(1)、OpenAI 提出 PALMS 数据集构建和模型微调方法

(2)、Percy Liang、李飞飞等学者提出基础模型概念

(3)、DeepMind 发表语言模型社会危害评估论文

2.超大规模预训练模型研发竞赛进入白热化阶段

(1)、谷歌研发万亿规模预训练模型 Switch Transformer

(2)、智源发布超大规模智能模型悟道 1.0/2.0

(3)、微软、英伟达发布预训练模型 Megatron-Turing

(4)、DeepMind 发布预训练模型 Gopher

(5)、其他企业持续研发超大规模预训练模型

3.多模态预训练模型成为下一个大模型重点发展领域

(1)、OpenAI 提出大规模多模态预训练模型 DALL·E 和 CLIP

(2)、以色列希伯来大学等提出文生高清图模型 StyleCLIP

(3)、智源、清华等研究者提出文生图模型 CogView

(4)、Facebook 研究者提出多任务多模态统一模型 UniT

(5)、清华等研究者提出跨模态提示学习模型 CPT

(6)、微软亚洲研究院、北大研究者提出涵盖三种模态数据的预训练模型 NÜWA(女娲)

4.加速方法创新提升超大参数规模模型的训练效率

(1)、2021年1月,微软等研究者提出 ZeRO-Offload 异构训练技术

(2)、202年3月,智源、清华研究者联合研发 FastMoE 加速系统

(3)、2021年9月,智源、清华研究者联合研发 BMInf 加速系统

(4)、2021年10月,微软、英伟达联合提出 PTD-P 加速方法

5.预训练模型在生物学研究和互联网等场景实现应用

(1)、2021年5月,谷歌提出多任务统一模型 MUM

(2)、2021年6月,清华、智源等研究者提出中文核心语言模型 CPM

(3)、2021年8月,智源、清华等研究者提出蛋白质预训练模型 ProteinLM


预训练模型技术

1.系统研究超大规模智能模型发展和影响的新兴领域已经形成

随着 BERT、GPT-3、DALL·E 等超大模型的兴起,“自监督学习+预训练模型微调”适配方案逐渐成为主流。然而,随着超大规模预训练模型在科研、产业、社会、经济等领域的作用日益凸显,其带来的深远影响成为科学家们关注的重点。

(1)、OpenAI 提出 PALMS 数据集构建和模型微调方法

2021年6 月,OpenAI 提出名为“PALMS”的数据集构建和模型微调方法,可构建出“具有价值导向的数据集”(Values-Targeted Datasets),使其能够修正 GPT-3 偏见,对解决大模型带来的伦理问题起到了推动作用。

来源https://cdn.openai.com/palms.pdf

(2)、Percy Liang、李飞飞等学者提出基础模型概念

2021年8 月,Percy Liang、李飞飞等学者将大规模预训练模型统一命名为基础模型(Foundation Models),并撰文讨论基础模型面临的机遇和挑战。论文分为四个部分,分别阐述了基础模型的能力、应用领域、技术层面和社会影响。

来源https://arxiv.org/pdf/2108.07258.pdf

(3)、DeepMind 发表语言模型社会危害评估论文

2021年12月,DeepMind 发表论文,研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响,并谈到两个伦理和社会影响方面需要研究者持续关注。一是当前的基准测试工具不足以评估一些伦理和社会危害。例如,当语言模型生成错误信息,人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。二是对于风险控制的研究依然不足。例如,语言模型会学习、复现和放大社会偏见,但是关于这一问题的研究仍处于早期阶段。

图注:DeepMind 论文研究的六大语言模型伦理和社会危害

来源Language modelling at scale: Gopher, ethical considerations, and retrieval

2.超大规模预训练模型研发竞赛进入白热化阶段

GPT-3 的问世,激发研究者探索规模更大、性能更惊人的超大规模预训练模型。国内外大型科研机构和企业纷纷投入巨量算力进行研发工作,将算力规模推升至万亿规模,探索模型的参数、性能和通用任务能力边界。目前,已有 OpenAI、谷歌、FaceBook、微软、英伟达、智源研究院、阿里达摩院、华为、百度、浪潮等研发机构和企业加入“军备竞赛”。

(1)、谷歌研发万亿规模预训练模型 Switch Transformer

2021年1月,谷歌研究人员研发出新的语言模型 Switch Transformer,包含 1.6 万亿个参数,是包含 1750 亿参数的 GPT-3 的九倍。研究者将 Switch Transformer 与谷歌研究的 T5-Base 和T5-Large 模型进行了对比,结果表明,在相同的算力资源下,新模型实现了最高7倍预训练速度提升。

图注:Switch Transformer 编码块结构

(2)、智源发布超大规模智能模型悟道 1.0/2.0

2021年3月20日,智源研究院发布我国首个超大规模智能信息模型“悟道 1.0”,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,并在模型预训练范式、规模和性能扩增技术、训练语料数据库建设等方面取得了多项国际领先的技术突破。6 月 1 日,智源研究院发布“悟道 2.0”模型,参数规模达到 1.75 万亿,是 GPT-3 的 10 倍,打破由 Switch Transformer预训练模型创造的 1.6 万亿参数记录,是中国首个万亿级模型

图注:悟道 2.0 中的技术创新成果

(3)、微软、英伟达发布预训练模型 Megatron-Turing

2021年10 月,微软联合英伟达推出了 Megatron-Turing(MT-NLP)预训练模型。该模型是微软T-NLG(Turing-NLG)和英伟达 Megatron-LM 模型结合的下一代版本,包含 5300亿参数。研究者选择了五个领域中的 8 项任务来评估 MT-NLG 的效果。实验中,该模型在其中一些任务上实现了最佳的性能表现。

图注:MT-NLG 模型采用的数据集

图注:MT-NLG 在零样本、单样本和小样本条件下在不同任务中的表现

(4)、DeepMind 发布预训练模型 Gopher

2021年12月,DeepMind 发布预训练语言模型 Gopher,参数规模达2800亿。该模型采用 4096块 TPUv3加速芯片进行训练,并结合了多种并行加速策略。该研究主要用于探索不同规模的模型的优势和不足,了解在模型参数规模增长后,在哪些领域上能够得到更好的性能表现。研究者发现,模型规模的增长对于阅读理解事实核查毒害言论辨认等任务有较大提升,但是逻辑推理常识任务上的提升并不显著。此外,研究者也研究了 Gopher 模型在对话等领域的能力以及缺陷。

图注:Gopher 和其他模型在大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)基准上在不同类别下的表现

来源Language modelling at scale: Gopher, ethical considerations, and retrieval

(5)、其他企业持续研发超大规模预训练模型

除以上案例外,2021年4月,华为云联合循环智能发布盘古 NLP 超大规模预训练语言模型,参数规模达 1000 亿联合北京大学发布盘古α超大规模预训练模型,参数规模达 2000 亿阿里达摩院发布 270 亿参数的中文预训练语言模型 PLUG联合清华大学发布参数规模达到 1000亿的中文多模态预训练模型 M6,目前已突破十万亿参数规模;

7 月,百度推出 ERNIE 3.0 知识增强大模型,参数规模达到百亿

10 月,浪潮发布约 2500 亿的超大规模预训练模型;

12月,百度推出 ERNIE 3.0 Titan 模型,参数规模达 2600 亿谷歌训练参数规模达 4810 亿的巨型 BERT 模型,结果公布在 MLPerfv1.1 训练榜单上;此外,谷歌还提出了 1.2 万亿参数的通用稀疏语言模型 GLaM,在 7 项小样本学习领域的性能超过 GPT-3。

3.多模态预训练模型成为下一个大模型重点发展领域

大数据大参数大算力的支持下,预训练模型能够充分学习文本中的表征,掌握一定的知识。如果模型能够学习多种模态的数据,在图文生成、看图问答等视觉语言(Vision Language)任务上具有更强表现。多模态预训练模型是 2021 年的重点研究方向,OpenAI、微软、智源、清华大学、中科院自动化所等机构均发布了多模态预训练模型

(1)、OpenAI 提出大规模多模态预训练模型 DALL·E 和 CLIP

1 月,OpenAI 同时发布了两个大规模多模态预训练模型——DALL·E 和 CLIPDALL·E 可以基于短文本提示(如一句话或一段文字)生成对应的图像CLIP 则可以基于文本提示图片进行分类。OpenAI 表示,研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限,实现多模态的人工智能系统。

图注:DALL·E 生成的“牛油果形状的椅子”

图注:CLIP 模型在多项ImageNet 测试中取得优秀水平

(2)、以色列希伯来大学等提出文生高清图模型 StyleCLIP

3 月,以色列希伯来大学、Adobe 研究院等将 StyleGAN 和 CLIP 模型结合,提出了一种能够根据文本提示生成高清晰度图像的模型,名为 StyleCLIP。研究者认为,StyleCLIP 能够结合预训练模型学习到的语义知识,加上生成对抗网络的图像生成能力,能够创造出更逼真的图像,在实际应用中有一定的优势。

图注:StyleCLIP 的处理图像的流程

图注:根据文本提示进行的图像PS 操作结果

来源https://arxiv.org/pdf/2103.17249.pdf

(3)、智源、清华等研究者提出文生图模型 CogView

5 月,智源研究院、清华大学、阿里达摩院的研究者发布了 CogView 文生图模型论文,其将VQ-VAE 和 40 亿参数的 Transformer 模型结合,通过在风格学习、超高清图像生成、文- 图排序和时尚设计等多个下游任务上进行微调,并采用了消除 NaN 损失等稳定预训练的方法。实验结果显示,CogView 在模糊化后的 MS COCO dataset 数据集上取得了最高的 FID 结果,高于以往的 GAN 和 DALL·E。

图注:CogView 的架构

图注:CogView 按照提示语生成的图像

(4)、Facebook 研究者提出多任务多模态统一模型 UniT

8 月,Facebook 研究团队提出了名为 UniT 的多任务多模态统一 Transformer 模型,其基于统一的 Transformer Encoder-Decoder 架构,能够同时解决视觉、多模态、语言等领域中的一系列任务,包括目标检测、视觉-文本推理、自然语言理解等。论文表示,该模型在 7个任务上都有较强的性能。

图注:UniT 模型能够学习的数据和完成的任务一览

图注:UniT 模型架构

(5)、清华等研究者提出跨模态提示学习模型 CPT

9 月,清华和新加坡国立大学的研究者提出了跨模态提示学习模型 CPT,其利用颜色对跨模态预训练模型进行基于提示学习的微调,在视觉定位、场景图生成任务的少次学习场景下较基线模型取得显著提升。

图注:CPT 跨模态提示学习框架

(6)、微软亚洲研究院、北大研究者提出涵盖三种模态数据的预训练模型 NÜWA(女娲)

11 月,微软亚洲研究院、北大研究者提出统一多模态预训练模型 NÜWA。该模型采用 3D Transformer 架构,能够生成视觉(图像或视频)信息。通过将该模型在 8 个下游任务上进行试验,女娲模型在文生图、文生视频、视频预测等任务上实现最佳性能。

图注:女娲模型支持的下游任务

图注:女娲模型的架构

4.加速方法创新提升超大参数规模模型的训练效率

受制于算力资源,超大规模预训练模型的训练和推理面临严重的瓶颈。在 GShard 和 Switch Transformer 的研究中,谷歌通过采用混合专家技术(Mixture of Experts,MoE),通过在神经网络中引入多个专家网络(Expert Network),降低需要激活的神经元数量,提升模型的计算效率,将预训练语言模型的参数提升至万亿规模。

图注:MoE 的架构,采用稀疏门控函数(Sparse Gating Function)来决定执行计算的专家网络

来源https://arxiv.org/pdf/1701.06538.pdf

(1)、2021年1月,微软等研究者提出 ZeRO-Offload 异构训练技术

随着超大规模预训练模型参数规模的增加,今年出现了更多大模型计算加速和优化方法,着力提升模型的计算效率。1 月,微软、加州大学默塞德分校(University of California, Merced)的研究者提出了一种名为“ZeRO-Offload”的异构深度学习训练技术,使用相同的硬件能够训练比以往规模大10倍的模型。在32GB RAM的V100 GPU上,用户可以通过ZeRO-offload训练 130 亿参数的 GPT-2;在单个 DGX-2 服务器上,ZeRO-offload 能够训练参数量超 700亿的模型,在原有的硬件基础上实现了 4.5 倍的模型规模提升。

(2)、202年3月,智源、清华研究者联合研发 FastMoE 加速系统

由于 MoE 技术和谷歌软硬件绑定,其无法直接应用于 PyTorch 等开源算法框架。为了解决这一问题,3 月,智源研究院和清华大学联合研发了名为 FastMoE 的加速系统,使普通用户可以通过改写代码的方式,直接使用 MoE 模块。相比原版,FastMoE 实现了 47 倍的提速优化。FastMoE 系统既可以作为 PyTorch 网络中的一个模块使用,也可用于改造现有网络中某个层。用户只需要几行代码便可调用 MoE 模块。FastMoE 也支持将任意神经网络模块作为专家网络,并包含了一些专门优化的 CUDA 代码,更加充分地利用了 GPU 大规模并行计算的能力。

图注:调用 FastMoE 代码的方式

来源GitHub - laekov/fastmoe: A fast MoE impl for PyTorch

图注:FastMoE 和原版 PyTorch 性能的对比

图注:FastMoE 的数据并行模式

来源智源x清华开源FastMoE,万亿AI模型基石

(3)、2021年9月,智源、清华研究者联合研发 BMInf 加速系统

预训练大模型在各个领域均取得了惊人的效果,但大模型的应用却具有较高的算力门槛,较长的模型响应速度。9 月,清华与智源研究者联合发布了低资源大模型推理工具包 BMInf,在消费级显卡上也可以进行百亿大模型的高效推理。

图注:BMInf 和原版PyTorch 性能的对比

来源GitHub - OpenBMB/BMInf: Efficient Inference for Big Models

(4)、2021年10月,微软、英伟达联合提出 PTD-P 加速方法

10 月,微软和英伟达联合提出了 PTD-P(Inter-node Pipeline Parallelism, Intra-node Tensor Parallelism, and Data Parallelism)训练加速方法,通过数据并行、张量并行和Pipeline 并行“三管齐下”的方式,将模型的吞吐量提高 10%以上。该并行方法可以在 3072个 GPU 上,以 502P 的算力对一万亿参数的 GPT 架构模型进行训练,实现单 GPU 吞吐量52的性能提升。利用该技术,微软和英伟达在 3000 多块 GPU 上训练出 5300 亿参数的超大规模预训练语言模型 Megatron-Turing。

图注:采用 PTD-P 技术训练模型时达到的参数规模和性能水平

来源https://arxiv.org/pdf/2104.04473.pdf

5.预训练模型在生物学研究和互联网等场景实现应用

随着数据规模逐渐扩大,数据模态进一步丰富,预训练模型将向更多领域渗透,通过“预训练-微调”的范式,完成多种类型的任务。在科研领域,预训练模型将与领域内的数据结合,成为一种完成下游任务的“基础模型”,助力诞生更多科学研究发现。在产业领域,面向更为复杂的智能决策场景,基于多种互联网数据进行预训练,具有决策能力的大模型可能是下一步发展的重点。

(1)、2021年5月,谷歌提出多任务统一模型 MUM

5 月,谷歌在 2021 IO 大会上公开了多任务统一模型(Multitask Unified Model,MUM)

的发展情况。MUM 模型能够理解 75 种语言,并预训练了大量的网页数据,擅长理解和解答复杂的决策问题,并能够从跨语言多模态网页数据中寻找信息,在客服、问答、营销等互联网场景中具有应用价值。

图注:MUM 模型能够根据用户提问从多种源头的网页信息中搜索出对应的旅行攻略

来源MUM: A new AI milestone for understanding information

(2)、2021年6月,清华、智源等研究者提出中文核心语言模型 CPM

6 月,清华、智源等研究者在北京智源大会上公开了以中文为核心的多语言预训练模型 CPM,兼具中英文语言的理解和生成能力,在识记、阅读、分类、推理、跨语、生成、概括等七大机器语言能力测试中,与现有开源预训练模型相比整体性能显著最优。公开可下载的 CPM-2模型分为 3 个不同版本:110 亿参数中文模型、110 亿参数中英模型以及 1980 亿中英 MoE模型。

图注:CPM 模型在下游任务中的性能表现

来源https://arxiv.org/pdf/2106.10715.pdf

(3)、2021年8月,智源、清华等研究者提出蛋白质预训练模型 ProteinLM

8 月,智源研究院悟道团队联合清华大学、腾讯量子实验室提出蛋白质预训练模型 ProteinLM,目前已开源 2 亿和 30 亿参数规模的模型。该模型支持蛋白质二级结构预测、荧光性预测、接触预测、折叠稳定性预测和远缘同源性检测任务。相较于基线模型 TAPE(3800 万参数),ProteinLM 在下游任务上表现有所提升,尤其是在蛋白质折叠预测问题上,模型较基线模型提高了 39%。

图注:ProteinLM 模型在下游任务中的性能表现

来源GitHub - BAAI-WuDao/ProteinLM: Protein Language Model

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/128509792