pytorch分布式训练简单总结 - 代码天地

pytorch分布式训练简单总结

企业开发 2023-09-05 21:38:37 阅读次数: 0

这个是较为简单的，详细请移步另一篇文章：https://blog.csdn.net/qq_36276587/article/details/123913384

简单总结使用pytorch进行单机多卡的分布式训练，主要是一些关键API的使用，以及分布式训练流程，pytorch版本1.2.0可用

初始化GPU通信方式（NCCL）

import torch.distributed as dist

torch.cuda.set_device(FLAGS.local_rank)
dist.init_process_group(backend='nccl')
device = torch.device("cuda", FLAGS.local_rank) #自己设置

分布式的数据加载

train_sampler = torch.utils.data.distributed.DistributedSampler(traindataset)
train_loader = torch.utils.data.DataLoader(
        traindataset, batch_size=batchSize,
        sampler=train_sampler,
        num_workers=4, pin_memory=True,#drop_last=False,
        collate_fn=alignCollate(imgH=imgH, imgW=imgW, keep_ratio=FLAGS.keep_ratio))
#pytorch的DataLoader格式处理训练标签

分布式训练模型

#初始化后的模型使用分布式训练
model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)  ## 同步bn
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[FLAGS.local_rank],
                                                      output_device=FLAGS.local_rank)

启动训练

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train_distributed.py

猜你喜欢

转载自blog.csdn.net/qq_36276587/article/details/113124122

pytorch分布式训练简单总结

PyTorch分布式训练 PyTorch分布式训练

PyTorch分布式训练

Pytorch 分布式训练

PyTorch 分布式训练教程

Pytorch分布式训练错误

TensorFlow、PyTorch分布式训练

Pytorch DDP 分布式训练实例

Pytorch 分布式训练（DP/DDP）

【分布式训练】基于PyTorch进行多GPU分布式模型训练（补充）

【分布式训练】基于Pytorch的分布式数据并行训练

pytorch-GPU分布式训练笔记

[深度学习] Pytorch 1.0 分布式训练初探

PyTorch分布式训练踩坑记

Pytorch之分布式训练 —— Data Parallel

Pytorch——distributed单机多卡分布式训练

RuntimeError: Address already in use pytorch分布式训练

Pytorch分布式训练与断点续训

【教程】Pytorch DDP 分布式训练详解

PyTorch 分布式训练 --- 数据加载之DistributedSampler

pytorch多GPU分布式训练代码编写

pytorch分布式训练报错RuntimeError: Socket Timeout

上手Pytorch分布式训练DDP

分布式ID的简单总结

Pytorch基础训练库Pytorch-Base-Trainer(支持模型剪枝分布式训练)

pytorch分布式基础

【深入了解PyTorch】PyTorch分布式训练：多GPU、数据并行与模型并行

【PyTorch教程】如何使用PyTorch分布式并行模块DistributedDataParallel(DDP)进行多卡训练

使用 X2MindSpore 迁移 Pytorch 训练脚本mobileNet支持分布式训练

分布式总结

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)