Meta AI 开源 OPT-175B,1750 亿参数媲美 GPT-3

Meta AI 开源了 Open Pretrained Transformer (OPT-175B),一个拥有 1750 亿个参数的语言模型,使用了 5 个公开数据集的 800 GB 数据进行训练;旨在刺激大型语言模型 (LLM) 的使用。

“对于这种规模的语言技术系统来说,该版本首次包括预训练的模型以及训练和使用它们所需的代码。为了保持完整性和防止滥用,我们在非商业许可下发布我们的模型,以专注于研究用例。该模型的访问权限将授予学术研究人员;隶属于政府、民间社会和学术界组织的人员;以及世界各地的工业研究实验室。”

根据介绍Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库,以提高这些模型专门用于研究目的的可访问性,并为在一个共同的共享模型上分析植根于可量化指标的潜在危害提供基础。还全面发布了一套较小规模的基线模型,使用与 OPT-175B 相同的数据集,设置也和 OPT-175B 类似,以使得研究人员能够单独研究模型规模的影响。这些小规模模型的参数包括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿(660 亿即将发布)。

Meta AI 方面表示,他们在开发 OPT-175B 时还考虑到了能源效率;在成功地训练了这种规模的模型的前提下,其碳足迹仅为 GPT-3 的 1/7。此举是通过结合 Meta 的开源完全分片数据并行(FSDP) API 和 NVIDIA 的张量并行抽象在 Megetron-LM 中实现的。该团队在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 的利用率,比 NVIDIA 研究人员公布的在类似硬件上的利用率大约高 17%。

虽然在大型语言模型领域有许多令人兴奋的发展,但对这些模型的局限性和风险仍不甚了解。由于不能直接接触这些模型,研究人员在设计检测和缓解可能的危害的策略方面也受到限制,这使得检测和缓解工作只能由那些有足够资本接触这种规模的模型的人掌握。我们希望 OPT-175B 能够为大型语言模型的创建前沿带来更多的声音,帮助社区集体设计负责任的发布策略,并为该领域的大型语言模型的发展增加前所未有的透明度和公开性。

猜你喜欢

转载自www.oschina.net/news/195062/mate-opt-175b