PyTorch中DistributedDataParallel使用笔记 - 代码天地

PyTorch中DistributedDataParallel使用笔记

企业开发 2023-10-02 19:05:46 阅读次数: 0

1. 基本概念

在使用DistributedDataParallel时有一些概率必须掌握

多机多卡	含义
world_size	代表有几台机器，可以理解为几台服务器
rank	第几台机器，即第几个服务器
local_rank	某台机器中的第几块GPU

单机多卡	含义
world_size	代表机器一共有几块GPU
rank	第几块GPU
local_rank	第几块GPU，与rank相同

2. 使用方法

2.1. 修改主函数

在运行的时候，DistributedDataParallel会往你的程序中加入一个参数local_rank，所以要现在你的代码中解析这个参数，如：

parser.add_argument("--local_rank", type=int, default=1, help="number of cpu threads to use during batch generation")

2.2. 初始化

torch.distributed.init_process_group(backend="nccl")

os.environ["CUDA_VISIBLE_DEVICES"] = "0, 1, 2"  # 有几块GPU写多少

2.3. 设定device

local_rank = torch.distributed.get_rank()
torch.cuda.set_device(local_rank)
global device
device = torch.device("cuda", local_rank)

我没用arg.local_rank，新定义了一个local_rank变量，是因为我更信任distributed.get_rank()这个函数
这里用torch.device来写，并且加了global，是因为后面模型和数据都要用到这个device，不会出错

2.4. 模型加载到多gpu

model.to(device)  # 这句不能少，最好不要用model.cuda()
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank], output_device=local_rank, find_unused_parameters=True)  # 这句加载到多GPU上

2.5. 数据加载到gpu

数据.to(device)

2.6. 启动

torchrun --nproc_per_node=4 --rdzv_endpoint=localhost:12345 train_cylinder_asym.py

参考文献

Pytorch并行计算(二): DistributedDataParallel介绍_dist.barrier_harry_tea的博客-CSDN博客

DistributedDataParallel多GPU分布式训练全过程总结跟着做90%成功_BRiAq的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/xhtchina/article/details/133164311

PyTorch中DistributedDataParallel使用笔记

pytorch 使用笔记

GPU使用笔记 (pytorch)

陈大佬的pytorch使用笔记

ToLua使用笔记（中）

[Notes] Pytorch中DDP(DistributedDataParallel)指定显卡/GPU运行的方式

简单易懂的 pytorch 使用 DistributedDataParallel 进行单机多卡训练

PyTorch使用笔记（附用例代码 + 详细注释）

python中dump与dumps的使用笔记

算法竞赛中的JAVA使用笔记

Python 中glob模块使用笔记

ProtoBuffer 在go中的使用笔记

DevExpress中GridControl的使用笔记（转）

Git 使用笔记（持续更新中...）

git使用笔记(更新中)

Django中session的使用笔记

Pandas、Numpy使用笔记（更新中）

unity中Dictionary使用笔记

【PyTorch教程】如何使用PyTorch分布式并行模块DistributedDataParallel(DDP)进行多卡训练

[源码解析] PyTorch 分布式(5) ------ DistributedDataParallel 总述&如何使用

PyTorch多卡分布式训练DistributedDataParallel 使用方法

LaTeX使用笔记

gitlab使用笔记

PGAdmin使用笔记

qt使用笔记

docker使用笔记

vim使用笔记

CLion 使用笔记

redis使用笔记

idea 使用笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)