马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?

【编者按】一个名叫 EleutherAI 的团队开源了语言模型代码库 GPT-neo,利用 mesh-tensorflow 库扩展到完整的 GPT-3 尺寸,官方预计可能会更大,不过该模型的名字还没完全确定,或许叫 GPT-hahaha 也说不好。项目创立于 2020 年 7 月,最初是打算做一个 GPT-2 的复刻版,后来就打算做一个寨版 GPT-3 还一度遇到了 TPU 不够的情况。关注项目的热心网友 cue 了一下马斯克,称这个项目可以改名字叫做 realOpenAI。

作者 | 八宝粥
出品 | CSDN(id:CSDNnews)
在这里插入图片描述

网友调侃说可以起名叫 realOpenAI 了

工欲善其事,必先利其器,要搞大模型,先有大数据。

所以项目先是完成了一个语料库数据仓库——Pile,数据大小为 835 GB,通过 22 个小型数据库的组合,可以保证有效的泛化能力。团队希望能够和 GPT-3 相同的参数下表现出相当的性能,未来可能还会降低参数的数量级来减轻重量。高端的数据集,往往只需要最简单的烹饪方式处理办法。作者表示,通过对该数据集进行预训练,能够有效改善下游的评估性能。数据在手,天下我有!
在这里插入图片描述
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ok0tkxcL-1611142748514)(image/20210120_160238_37.png)]
​而语言模型和 GPT-3 同样用到了自注意力模型,此外还包括替代模型体系结构和线性注意实现,方便扩展到更大的模型大小和上下文长度,包括:1.局部注意力模型;2.专家混合模型;3.轴向位置嵌入模型;4.遮盖语言模型等。预训练的模型将在完成训练后发布。

GPT-3 这么强了,为什么还要重新造一个呢?因为 GPT-3 并不是 OpenAI 造出来的语言模型这么简单,它既不是开源的,也不是开放的,而是被微软签下了"独占协议"的模型,仅仅开放了 API 供大家使用而已,而且还能对使用者使用的方式进行管理。既然这样,那其他厂家肯定就心有余悸,毕竟微软是嫡系,我们都是旁支,于是很多人就想着自己造一个能随时开的轮子。该团队的名字也挺有意思的,古希腊语 eleutheria 的意思是自由,跟 OpenAI 遥相呼应。

GPT-neo 同样基于 transformer,计划围绕 GPT 进行训练,初步计划是复制一个 GPT-3 那么大的模型并开源。当然,所有的版本也都会在博客当中同步。目前基于 mesh-Tensorflow (进行 TPU 训练)和 Deepspeed(进行 GPU 训练)。二者都可以实现 GPT-3+ 的大小,不过,由于缺少支持,团队目前还缺少 TPU 来训练 175b 的模型,幸运的是他们的 GPU 应该是管够的。不久之后,团队还会发布一个更小规模的模型,然后还会有 GPT-neox,就像 GPT-X 一样。

由于项目还没有完全完成,只是完成了部分文件和简单的训练展示,更新配置方案和 TPU 训练等还需要进一步的补充,并且由于数据集实在是太庞大了,以至于我们只能简单了解一下它的展示效果。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述



提问时间

该团队也是玩的一手好梗,QA 里面有这样的问题:『这么大的模型你们打算怎么训练呢?』 结果人家回答:『我们申请了 TensorFlow 的研究云计划,我们的规划是“问问 Google 老哥能不能多给一点”。。。如果不给,再想想办法。QA 其他问题当中,依然不忘问各位大大有没有大量可以访问的 TPU 和 GPU 可以用。。。

【提问】:GPT-neo 是什么?

【回答】:用于训练大量语言模型的代码库,我们计划开源,不过模型名字还没确定


【提问】:像 Folding@Home 和 hivemind 这种分布式计算怎么办?

【回答】:我们考虑了合并 GPU 进行训练,当前问题是 a.考虑到密集和


【提问】:您训练的模型有多大?

【回答】:写这篇问答的时候(2020-10.27),我们已经在许多配置下训练和很多模型,最大的 100B 参数。全部训练的话,我们最大的是 1.3B 参数,大概是 GPT-2XL 那么大,OpenWebText 是它的主体。不久我们还会在 Pile 和 Common Crawl上训练一组小的模型(Pile 和 Common Crawl 分别是两组数据集)。


【提问】:模型怎么样?

【回答】:不错哦!如果您感兴趣的话可以看看他们在 可爱的 Foomborad 上的的训练情况


【提问】:有没有考虑过更有效的架构?

【回答】:是的,我们在探索设计空间、线性缩放机制、专家混合和其他的设计。一般来说,我们发现全局和局部的混合对于性能的稳健型十分重要


【提问】:GPT-neo 是免费软件吗?

【回答】:它是一款基于 MIT 协议的开源软件


【提问】:模型是免费的吗?

【回答】:我们还没有确定模型的许可类型


GitHub 项目页面当中,有详细的 TPU、GPU 以及 Colab 上运行的步骤,感兴趣的朋友也可以亲自尝试一下。

祝他们好运,希望不久的将来这个“寨版” GPT 能真正的在语言模型界发光。


【参考资料】
1.https://www.eleuther.ai/gpt-neo
2.https://github.com/EleutherAI/gpt-neo
3.https://github.com/tensorflow/mesh
4.https://kevinwatkins.github.io/foomboard/
5.https://arxiv.org/abs/2101.00027
6.https://arxiv.org/abs/2009.06857

猜你喜欢

转载自blog.csdn.net/weixin_39787030/article/details/112909055