使用 Ansible 在 GPU VM 上简化 GPT-2 模型训练 - 代码天地

使用 Ansible 在 GPU VM 上简化 GPT-2 模型训练

企业开发 2023-06-18 20:37:56 阅读次数: 0

就在大约两个月前，我对语言模型非常着迷。它从 GPT 3.5 Plus 帐户开始，然后回滚到GPT2，这样我就可以测试自己使用语言模型的能力。我很快就遇到了障碍。

我有一个相当强大的家庭实验室服务器，有 32 个以 4 GHz 运行的超快 AMD Threadripper 内核、256GB DDR4 内存、27TB 可用 ZFS 存储和一个 6GB RTX 1660 GPU。这就是问题开始的地方。

如果您对使用PyTorch处理语言模型一无所知，那么您已经知道我在说什么。即使是最简单的模型也可能需要数小时才能在 24 个 CPU 内核上进行处理，而我的 Nvidia 1660 GPU 上的 6GB Ram 足以处理非常小的批次。尽管 GPU 处理数据的速度甚至比 24 个 CPU 内核快 10 倍，但您必须以非常小的批次处理所有内容，同时加载前一批次作为训练模型。它缓慢且耗时，在人力和处理器方面都是明智的。然后我开始研究云 GPU。他们拥有我需要的能力，但配备 4 个 RTX6000 的 VM 需要 6 美元，费用很快就会增加。

我通常知道我可以使用 Ansible 自动执行此过程，但是在运行模型之前必须进行大量准备工作。因此，我想出了这本 Ansible 剧本，现在我正在与全世界分享。

我已经对这本 playbook 进行了至少十几次测试，并且它在一个具有 200 个 epoch 的小型数据集的测试中工作了几分钟到几个小时。

该剧本使用Hugging Face run_clm.py脚本来处理数据。本手册假设您有一个干净的数据集，其格式适用于Hugging Face Transformers。我有一个 Python 脚本来清理我的数据，但它特定于我的数据集。如果您想帮助清理您的数据，请通过社交媒体或本网站的联系页面与我联系。

而不是我的一篇冗长而曲折的帖子解释这个项目的深层原因，我们将直接跳到这个。首先是

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/131226867

使用 Ansible 在 GPU VM 上简化 GPT-2 模型训练

使用Paddle2.0构建一个经典的文本生成模型GPT-2

使用GPT-2加载CPM-LM模型实现简单的问答机器人

预训练模型（Bert及GPT-2）相关资料整理

OpenVINO™运行GPT-2模型

keras使用GPU训练模型

Linux中tensorflow2使用GPU训练模型

【mmaction2 调用指定GPU】mmaction2 使用指定编号的GPU训练模型

NLP模型应用之三：GPT与GPT-2

GPT从入门到精通之 GPT-2 模型进阶

使用GPU 训练Tensorflow/Keras 的CNN模型

使用GPU训练模型遇到的问题

Colab配置: 使用gpu训练模型

pytorch-使用GPU加速模型训练

Keras下使用多GPU训练模型

Pytorch下使用多GPU训练模型

学习笔记（49）- GPT-2模型的服务部署

cpu上训练的模型放到gpu上继续训练

如何确定模型训练时是否使用了GPU训练

【Pytorch神经网络实战案例】34 使用GPT-2模型实现句子补全功能（手动加载）

pytorch框架学习(2)使用GPU训练

tensorflow使用GPU训练

Pytorch：使用GPU训练

在Google的GPU上永远免费训练您的机器学习模型

pytorch GPU训练好的模型使用CPU加载

【tensorflow2.0】使用单GPU训练模型

Pytorch实战总结篇之使用GPU训练模型

【AMD GPU】使用A卡进行ai模型训练

GPU AI 模型训练

指定GPU训练模型

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)