Pytorch 分布式训练 - 代码天地

Pytorch 分布式训练

其他 2020-05-17 10:21:20 阅读次数: 0

torch.distributed 包支持

Pytorch 分布式目前只支持 Linux

Pytorch 中通过 torch.distributed 包提供分布式支持，包括 GPU 和 CPU 的分布式训练支持。。

在此之前，torch.nn.DataParallel 已经提供数据并行的支持，但是其不支持多机分布式训练，且底层实现相较于 distributed 的接口，有些许不足。

torch.distributed 的优势如下：

每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。

在每次迭代中，每个进程具有自己的 optimizer ，并独立完成所有的优化步骤，进程内与一般的训练无异。

在各进程梯度计算完成之后，各进程需要将梯度进行汇总平均，然后再由 rank=0 的进程，将其 broadcast 到所有进程。之后，各进程用该梯度来更新参数。

由于各进程中的模型，初始参数一致 (初始时刻进行一次 broadcast)，而每次用于更新参数的梯度也一致，因此，各进程的模型参数始终保持一致。

而在 DataParallel 中，全程维护一个 optimizer，对各 GPU 上梯度进行求和，而在主 GPU进行参数更新，之后再将模型参数 broadcast 到其他 GPU。

相较于 DataParallel，torch.distributed 传输的数据量更少，因此速度更快，效率更高。

每个进程包含独立的解释器和 GIL。

由于每个进程拥有独立的解释器和 GIL，消除了来自单个 Python 进程中的多个执行线程，模型副本或 GPU 的额外解释器开销和 GIL-thrashing ，因此可以减少解释器和 GIL 使用冲突。这对于严重依赖 Python runtime 的 models 而言，比如说包含 RNN 层或大量小组件的 models而言，这尤为重要。

windows报错：

module 'torch.distributed' has no attribute 'get_world_size'

ShellCollector

原创文章 2935 获赞 1163 访问量 619万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/jacke121/article/details/105956268

PyTorch分布式训练 PyTorch分布式训练

PyTorch分布式训练

Pytorch 分布式训练

PyTorch 分布式训练教程

Pytorch分布式训练错误

TensorFlow、PyTorch分布式训练

Pytorch DDP 分布式训练实例

Pytorch 分布式训练（DP/DDP）

pytorch分布式训练简单总结

【分布式训练】基于PyTorch进行多GPU分布式模型训练（补充）

【分布式训练】基于Pytorch的分布式数据并行训练

pytorch-GPU分布式训练笔记

[深度学习] Pytorch 1.0 分布式训练初探

PyTorch分布式训练踩坑记

Pytorch之分布式训练 —— Data Parallel

Pytorch——distributed单机多卡分布式训练

RuntimeError: Address already in use pytorch分布式训练

Pytorch分布式训练与断点续训

【教程】Pytorch DDP 分布式训练详解

PyTorch 分布式训练 --- 数据加载之DistributedSampler

pytorch多GPU分布式训练代码编写

pytorch分布式训练报错RuntimeError: Socket Timeout

上手Pytorch分布式训练DDP

Pytorch基础训练库Pytorch-Base-Trainer(支持模型剪枝分布式训练)

pytorch分布式基础

【深入了解PyTorch】PyTorch分布式训练：多GPU、数据并行与模型并行

【PyTorch教程】如何使用PyTorch分布式并行模块DistributedDataParallel(DDP)进行多卡训练

使用 X2MindSpore 迁移 Pytorch 训练脚本mobileNet支持分布式训练

PyTorch 1.0 中文官方教程：使用 Amazon AWS 进行分布式训练

PyTorch 1.4 发布：支持 Java 和分布式模型并行训练

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)