从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型


团队博客: CSDN AI小组


相关阅读


先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间 模型名称 参数量 机构 相关链接 开源
2021-09 Jurassic-1 (J1) J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B)
AI21 Labs 论文 ,
官方文档,
技术报告
受限

Alibaba

发布时间 模型名称 参数量 机构 相关链接 开源
2019-08 StructBert structbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M)
Alibaba Group Inc. 论文,
GitHub
模型

Allen Institute for AI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-02 ELMo Small(13.6M),
Medium(28.0M),
Original(93.6M)
Allen Institute for AI &
University of Washington
论文 模型

Amazon

发布时间 模型名称 参数量 机构 相关链接 开源
2022-03 DQ-BART 与标准BART相比,参数减少了30倍 Cornell University &
AWS AI Labs &
University of Pennsylvania
论文

Anthropic

发布时间 模型名称 参数量 机构 相关链接 开源
2021-12 Anthropic-LM Anthropic-LM v4-s3 (52B) Anthropic 论文1,
论文2
未开源

BAAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Wu Dao 2.0 1.75T BAAI 官网 模型

Baidu

发布时间 模型名称 参数量 机构 相关链接 开源
2019-05 ERNIE 114M Baidu GitHub,
论文
模型

BigScience

发布时间 模型名称 参数量 机构 相关链接 开源
2022-05 T0pp 11B BigScience etc. 论文 模型
2022-07 BLOOM 176B BigScience 论文 模型
2022-11 BLOOMZ 176B BigScience etc. 论文 模型

Cohere

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 Cohere Cohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B)
Cohere 官网 受限

DeepMind

发布时间 模型名称 参数量 机构 相关链接 开源
2021-07 AlphaFold 21M DeepMind etc. 论文
2021-12 Gopher 280B DeepMind 论文,
官网
未开源
2022-03 Chincilla 70B DeepMind 论文 未开源
2022-03 GopherCite 280B Deepmind &
University College London
论文
2022-04 Flamingo 80B (largest) Deepmind 论文 flamingo-mini模型
2022-05 Gato 1.2B Deepmind 论文
2022-09 Sparrow 70B Deepmind 论文

EleutherAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-03 GPT-Neo 5B,
2.7B (XL)
EleutherAI 论文 模型
2021-06 GPT-J 6B EleutherAI 博客 模型
2021-12 StableDiffusion 890M LMU Munich &
Stability.ai &
Eleuther.ai
论文 模型
2022-04 GPT-NeoX 20B EleutherAI 论文 模型

Google

发布时间 模型名称 参数量 机构 相关链接 开源
2018-10 BERT Base = 110M,
Large = 340M
Google AI Language 论文 模型
2019-01 Transformer XL 151M Carnegie Mellon University &
Google Brain
论文 模型
2019-05 XLNet Base=117M,
Large=360M
Google AI Brain Team &
Carnegie Mellon University
论文 模型
2019-09 ALBERT Base = 12M,
Large = 18M,
XLarge = 60M
Google Research &
Toyota Technological Institute at Chicago
论文 模型
2019-10 T5 11B Google 论文 模型
2019-12 Pegasus Base = 223M,
Large = 568M
Imperial College London &
Google Research
论文 模型
2020-03 ELECTRA Base = 110M,
Large = 330M
Google Brain & Stanford University 论文 模型
2020-07 BigBird 取决于整体架构 Google Research 论文 模型
2020-10 ViT 86M(Base) to 632M (Huge) Google Research 论文 模型
2021-01 Switch 1T Google 论文 模型
2021-06 Decision Transformers 117M Google Brain &
UC Berkeley &
Facebook AI Research
论文 模型
2021-12 GLaM 1.2T覆盖64个专业领域,
但只有96B被激活用于推理
Google 论文,
官方博客
2022-01 LAMDA 137B Google 论文,
官方博客
2022-04 PaLM 540B Google Research 论文,
官方博客
未开源
2022-05 UL2 20B Google Research 论文 模型
2022-06 Imagen 2B Google Research 论文,
官网
2022-06 Minerva 540B Google Research 论文,
官网
2022-12 Flan-T5 11B Google 论文 模型

Huggingface

发布时间 模型名称 参数量 机构 相关链接 开源
2019-10 DistilBERT 66M Huggingface 论文 模型

iFLYTEK

发布时间 模型名称 参数量 机构 相关链接 开源
2020-11 MacBert MacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M)
iFLYTEK AI Research &
Harbin Institute of Technology
论文 模型

Meta (Facebook)

发布时间 模型名称 参数量 机构 相关链接 开源
2019-07 RoBERTa 356M Facebook AI &
University of Washington
论文 模型
2019-10 BART 比 BERT 多 10% Facebook AI 论文 模型
2019-10 XLM-RoBERTa Base = 270M,
Large = 550M
Facebook AI 论文 模型
2020-01 mBART 与BART相同 Facebook AI Research 论文 模型
2021-07 HTML 400M Facebook AI &
University of Washington
论文
2022-01 CM3 13B (largest) Facebook AI Research 论文
2022-03 SeeKer 与基模型相同 Facebook AI Research &
ETH Zürich
论文,
官网
2022-05 OPT 175B,
66B
Meta AI 论文,
官网
模型
2022-08 BlenderBot3 175B Meta AI &
Mila/McGill University
论文 blenderbot-3B模型,
模型
2022-11 Galatica 120B Meta AI 论文 模型

Microsoft

发布时间 模型名称 参数量 机构 相关链接 开源
2019-03 MT-DNN 330M Microsoft Research 论文 模型
2019-05 UniLM 340M Microsoft Research 论文,
GitHub
模型
2019-10 DialoGPT 1.5B Microsoft Corporation 论文 模型
2020-02 Turing NLG 17B Microsoft 官方博客
2021-03 Swin Transformer 29M-197M Microsoft Research Asia GitHub ,
论文
模型

NVidia

发布时间 模型名称 参数量 机构 相关链接 开源
2019-09 Megatron-LM 8.3B (GPT-like),
3.9B (BERT-like)
NVidia 论文,
GitHub
2021-10 Megatron Turing NLG 530B Microsoft &
NVIDIA
论文,
官方博客
未开源
2022-06 Global Context ViT 90M NVidia 论文

OpenAI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-06 GPT 117M OpenAI 论文 模型
2019-02 GPT-2 1.5B OpenAI 论文 模型
2020-05 GPT-3 GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M)
OpenAI 论文,
GitHub
受限
2021-01 DALL-E 12B OpenAI 论文,
官方博客,
Demo
2021-02 CLIP 未知 OpenAI 论文,
GitHub
模型
2021-07 Codex Codex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow)
OpenAI 论文 受限
2021-12 GLIDE 12B OpenAI 论文,
Demo
2022-01 InstructGPT InstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*)
OpenAI 论文,
官网
受限
2022-04 DALL-E-2 3.5B OpenAI 论文,
官网
2022-10 GPT-3.5 175B OpenAI 官网 未开源
2022-10 ChatGPT 与 GPT3 相同 OpenAI 官网 未开源

Salesforce

发布时间 模型名称 参数量 机构 相关链接 开源
2019-09 CTRL 1.63B Salesforce Research 论文 模型

Tsinghua University

发布时间 模型名称 参数量 机构 相关链接 开源
2020-10 GLM 130B Tsinghua University &
Zhipu.AI
论文,
Demo
10B版模型

UC Berkeley

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Trajectory Transformers 比 GPT 更小的架构 UC Berkeley 论文 模型

Yandex

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 YaLM 100B Yandex GitHub,
博客
模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

猜你喜欢

转载自blog.csdn.net/u010280923/article/details/129045051
今日推荐