单卡训练改为DistributedDataParallel训练 - 代码天地

单卡训练改为DistributedDataParallel训练

企业开发 2023-12-17 20:25:52 阅读次数: 0

一. 两种分布式训练的方式

1.DataParallel (DP)：实现简单，代码量较少，启动速度快一点。但速度较慢，且存在负载不均衡的问题。单进程，多线程。主卡显存占用比其他卡会多很多。不支持 Apex 的混合精度训练。是Pytorch官方很久之前给的一种方案。受 Python GIL 的限制，DP的操作原理是将一个batchsize的输入数据均分到多个GPU上分别计算（此处注意，batchsize要大于GPU个数才能划分）。

2.DistributedDataParallel (DDP)：All-Reduce模式，本意是用来分布式训练（多机多卡），但是也可用于单机多卡。配置稍复杂。多进程。数据分配较均衡。是新一代的多卡训练方法。使用 torch.distributed 库实现并行。torch.distributed 库提供分布式支持，包括 GPU 和 CPU 的分布式训练支持，该库提供了一种类似 MPI 的接口，用于跨多机器网络交换张量数据。它支持几种不同的后端和初始化方法。DDP通过Ring-Reduce的数据交换方法提高了通讯效率，并通过启动多个进程的方式减轻Python GIL的限制，从而提高训练速度。

二. DDP实现步骤

1.需要导入的包

其中dist负责多线程通信，DDP负责模型传递工作

2.通信进程初始化

其中local_rank设置为-1即可

3.使用DistributedSampler封装数据

4.将模型放到cuda上封装

5.训练时，将数据放到device上

执行命令：

python3 -m torch.distributed.launch --nproc_per_node=4 --master_port=60055 train.py --GPUS 4，5，6，7

猜你喜欢

转载自blog.csdn.net/m0_62278731/article/details/134185975

单卡训练改为DistributedDataParallel训练

PaddlePaddle把单卡训练改为多卡训练

DAMOYOLO windows 单卡训练

pytorch DistributedDataParallel多卡并行训练

pytorch深度学习单卡训练和多卡训练

简单易懂的 pytorch 使用 DistributedDataParallel 进行单机多卡训练

paddleyolov3训练改为gpu训练

设置GPU实现深度学习单卡、多卡训练

Pytorch——多卡GPU训练与单卡GPU训练相互切换

PyTorch多卡分布式训练DistributedDataParallel 使用方法

pytorch基于DistributedDataParallel进行单机多卡的分布式训练

【PyTorch教程】如何使用PyTorch分布式并行模块DistributedDataParallel(DDP)进行多卡训练

【AI实战】分布式训练：使用DistributedDataParallel实现单机多GPU并行训练resnet50模型

单机多卡和单机单卡训练模型，权重文件中多了module

pytorch GPU分布式训练单机单卡、单机多卡

Android双卡模式改为单卡模式

训练

3090单卡5小时，每个人都能训练专属ChatGPT，港科大开源LMFlow

【Tensorflow】【Python】训练自己的数据集——数据读取、处理、训练、测试、可视化、Debug（单机单卡、单机多卡、多机多卡）

陈丹琦团队提出低内存高效零阶优化器MeZO，单卡A100可训练300亿参数模型

将训练好的Pytorch模型修改为可以在Android部署的样式

Windows下用amd显卡训练： Pytorch-directml 重大升级，改为pytorch插件形式，兼容更好

tesseract训练

力量训练

训练总结

caffe 训练

训练记录

口算训练

7.12训练

训练计划

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)