pytorch DistributedDataParallel多卡并行训练 - 代码天地

pytorch DistributedDataParallel多卡并行训练

其他 2020-04-15 11:18:34 阅读次数: 0

pytorch DistributedDataParallel多卡并行训练

Pytorch 中最简单的并行计算方式是 nn.DataParallel。
DataParallel 使用单进程控制将模型和数据加载到多个 GPU 中，控制数据在 GPU 之间的流动，协同不同 GPU 上的模型进行并行训练。

但是DataParallel的缺点十分明显，各卡之间的负载不均衡，主卡的负载过大。运行时间大概是distributed 的四倍。
所以，下面我们介绍使用distributed 的计算方式。

先设定下local_rank，这是很重要的参数

parser = argparse.ArgumentParser()
parser.add_argument('--local_rank', default=0, type=int, help='node rank for distributed training')
args = parser.parse_args()
print(args.local_rank)

 torch.distributed.init_process_group('nccl', init_method='env://')

 torch.cuda.set_device(args.local_rank)
 device = torch.device("cuda", args.local_rank)

 train_dataset = ModelNet_Loader(root, 'train', args)  #自己写的类
 test_dataset = ModelNet_Loader(root, 'test', args)    #自己写的类

 train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)
 test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset)

 train_loader = DataLoader(train_dataset, num_workers=2,batch_size=args.batch_size, shuffle=False, drop_last=True,  sampler=train_sampler)       
 test_loader = DataLoader(test_dataset, num_workers=2,batch_size=args.test_batch_size, shuffle=False, drop_last=False, sampler = test_sampler)
   
    #Try to load models
 if args.model == 'STN3d':
        model = STN3d()    #自己的model
 print(str(model))
 model.to(device)

 model = torch.nn.parallel.DistributedDataParallel(model,device_ids=[args.local_rank],output_device=args.local_rank)

然后我们运行如下代码，启动训练

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2  --master_port 29501  main.py

参考

https://zhuanlan.zhihu.com/p/98535650

发布了131 篇原创文章 · 获赞 6 · 访问量 6919

私信关注

猜你喜欢

转载自blog.csdn.net/Orientliu96/article/details/104596429

pytorch DistributedDataParallel多卡并行训练

【PyTorch教程】如何使用PyTorch分布式并行模块DistributedDataParallel(DDP)进行多卡训练

pytorch 多卡并行训练

简单易懂的 pytorch 使用 DistributedDataParallel 进行单机多卡训练

Pytorch 多卡并行训练教程（DDP）

PyTorch多卡分布式训练DistributedDataParallel 使用方法

pytorch基于DistributedDataParallel进行单机多卡的分布式训练

pytorch模型训练单机多卡(二)：数据并行DataParallel

5 种 PyTorch 并行训练方法（单机多卡）

Pytorch多卡训练

pytorch模型训练单机多卡(一)：基础知识(模型并行 vs 数据并行

PyTorch 单机多卡训练

Pytorch分布式数据并行(DistributedDataParallel)

Pytorch distributed 多卡并行载入模型

当代研究生应当掌握的5种Pytorch并行训练方法（单机多卡）

Pytorch 多卡训练原理与实现

使用Pytorch进行多卡训练

pytorch 多卡并行载入部分网络模型

使用Pytorch测试cuda设备的性能（单卡或多卡并行）

【深入了解PyTorch】PyTorch分布式训练：多GPU、数据并行与模型并行

pytorch深度学习单卡训练和多卡训练

Pytorch实现多机多卡GPU训练

pytorch 多GPU 训练

【Pytorch】多GPU训练

pytorch多GPU训练

pytorch 多GPU训练

Pytorch——distributed单机多卡分布式训练

pytorch多GPU并行的问题

AMD cpu 下 Pytorch 多卡并行卡死问题解决

Inplace ABNSync 与 pytorch GPU多卡并行的一点坑

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)