马斯克抱怨 GPT-3 不够 Open，开源的语言模型库来了你要不要学？

【编者按】一个名叫 EleutherAI 的团队开源了语言模型代码库 GPT-neo，利用 mesh-tensorflow 库扩展到完整的 GPT-3 尺寸，官方预计可能会更大，不过该模型的名字还没完全确定，或许叫 GPT-hahaha 也说不好。项目创立于 2020 年 7 月，最初是打算做一个 GPT-2 的复刻版，后来就打算做一个寨版 GPT-3 还一度遇到了 TPU 不够的情况。关注项目的热心网友 cue 了一下马斯克，称这个项目可以改名字叫做 realOpenAI。

作者 | 八宝粥
出品 | CSDN(id：CSDNnews)
在这里插入图片描述

网友调侃说可以起名叫 realOpenAI 了

工欲善其事，必先利其器，要搞大模型，先有大数据。

所以项目先是完成了一个语料库数据仓库——Pile，数据大小为 835 GB，通过 22 个小型数据库的组合，可以保证有效的泛化能力。团队希望能够和 GPT-3 相同的参数下表现出相当的性能，未来可能还会降低参数的数量级来减轻重量。高端的数据集，往往只需要最简单的~~烹饪方式~~处理办法。作者表示，通过对该数据集进行预训练，能够有效改善下游的评估性能。数据在手，天下我有！
在这里插入图片描述
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ok0tkxcL-1611142748514)(image/20210120_160238_37.png)]
而语言模型和 GPT-3 同样用到了自注意力模型，此外还包括替代模型体系结构和线性注意实现，方便扩展到更大的模型大小和上下文长度，包括：1.局部注意力模型；2.专家混合模型；3.轴向位置嵌入模型；4.遮盖语言模型等。预训练的模型将在完成训练后发布。

GPT-3 这么强了，为什么还要重新造一个呢？因为 GPT-3 并不是 OpenAI 造出来的语言模型这么简单，它既不是开源的，也不是开放的，而是被微软签下了"独占协议"的模型，仅仅开放了 API 供大家使用而已，而且还能对使用者使用的方式进行管理。既然这样，那其他厂家肯定就心有余悸，毕竟微软是嫡系，我们都是旁支，于是很多人就想着自己造一个能随时开的轮子。该团队的名字也挺有意思的，古希腊语 eleutheria 的意思是自由，跟 OpenAI 遥相呼应。

GPT-neo 同样基于 transformer，计划围绕 GPT 进行训练，初步计划是复制一个 GPT-3 那么大的模型并开源。当然，所有的版本也都会在博客当中同步。目前基于 mesh-Tensorflow （进行 TPU 训练）和 Deepspeed（进行 GPU 训练）。二者都可以实现 GPT-3+ 的大小，不过，由于缺少支持，团队目前还缺少 TPU 来训练 175b 的模型，幸运的是他们的 GPU 应该是管够的。不久之后，团队还会发布一个更小规模的模型，然后还会有 GPT-neox，就像 GPT-X 一样。

由于项目还没有完全完成，只是完成了部分文件和简单的训练展示，更新配置方案和 TPU 训练等还需要进一步的补充，并且由于数据集实在是太庞大了，以至于我们只能简单了解一下它的展示效果。

在这里插入图片描述

提问时间

该团队也是玩的一手好梗，QA 里面有这样的问题：『这么大的模型你们打算怎么训练呢？』结果人家回答：『我们申请了 TensorFlow 的研究云计划，我们的规划是“问问 Google 老哥能不能多给一点”。。。如果不给，再想想办法。QA 其他问题当中，依然不忘问各位大大有没有大量可以访问的 TPU 和 GPU 可以用。。。

【提问】：GPT-neo 是什么？

【回答】：用于训练大量语言模型的代码库，我们计划开源，不过模型名字还没确定

【提问】：像 Folding@Home 和 hivemind 这种分布式计算怎么办？

【回答】：我们考虑了合并 GPU 进行训练，当前问题是 a.考虑到密集和

【提问】：您训练的模型有多大？

【回答】：写这篇问答的时候（2020-10.27），我们已经在许多配置下训练和很多模型，最大的 100B 参数。全部训练的话，我们最大的是 1.3B 参数，大概是 GPT-2XL 那么大，OpenWebText 是它的主体。不久我们还会在 Pile 和 Common Crawl上训练一组小的模型（Pile 和 Common Crawl 分别是两组数据集）。

【提问】：模型怎么样？

【回答】：不错哦！如果您感兴趣的话可以看看他们在可爱的 Foomborad 上的的训练情况

【提问】：有没有考虑过更有效的架构？

【回答】：是的，我们在探索设计空间、线性缩放机制、专家混合和其他的设计。一般来说，我们发现全局和局部的混合对于性能的稳健型十分重要

【提问】：GPT-neo 是免费软件吗？

【回答】：它是一款基于 MIT 协议的开源软件

【提问】：模型是免费的吗？

【回答】：我们还没有确定模型的许可类型

GitHub 项目页面当中，有详细的 TPU、GPU 以及 Colab 上运行的步骤，感兴趣的朋友也可以亲自尝试一下。

祝他们好运，希望不久的将来这个“寨版” GPT 能真正的在语言模型界发光。

【参考资料】
1.https://www.eleuther.ai/gpt-neo
2.https://github.com/EleutherAI/gpt-neo
3.https://github.com/tensorflow/mesh
4.https://kevinwatkins.github.io/foomboard/
5.https://arxiv.org/abs/2101.00027
6.https://arxiv.org/abs/2009.06857