英伟达NCCLNVIDIA 集体通信库 (NCCL) 实现了针对 NVIDIA GPU 和网络进行优化的多 GPU 和多节点通信原语。NCCL 提供全收集、全归约、广播、归约、归约分散以及点对点发送

企业开发 2023-07-29 10:36:06 阅读次数: 0

英伟达NCCL

NVIDIA 集体通信库 (NCCL) 实现了针对 NVIDIA GPU 和网络进行优化的多 GPU 和多节点通信原语。NCCL 提供全收集、全归约、广播、归约、归约分散以及点对点发送和接收等例程，这些例程经过优化，可在 PCIe 和 NVLink 高速互连上实现高带宽和低延迟。一个节点以及跨节点的 NVIDIA Mellanox 网络。

Caffe2、Chainer、MxNet、PyTorch和TensorFlow等领先的深度学习框架都集成了 NCCL，以加速多 GPU 多节点系统上的深度学习训练。

NCCL 可作为NVIDIA HPC SDK的一部分以及 Ubuntu 和 Red Hat 的单独软件包进行下载。

下载NCCL 文档开发者指南

GitHub 观看 GTC 网络研讨会

表现

NCCL 方便地消除了开发人员针对特定机器优化其应用程序的需要。NCCL 在节点内和跨节点的多个 GPU 上提供快速集合。

易于编程

NCCL 使用简单的 C API，可以从多种编程语言轻松访问。NCCL 紧密遵循 MPI（消息传递接口）定义的流行集体 API。

兼容性

NCCL 几乎兼容任何多 GPU 并行化模型，例如：单线程、多线程（每个 GPU 使用一个线程）和多进程（MPI 与 GPU 上的多线程操作相结合）。

主要特征

AMD、ARM、PCI Gen4 和 IB HDR 上高带宽路径的自动拓扑检测
高达 2 倍的网络内峰值带宽均减少了利用SHARPV2 的操作
图搜索具有最高带宽和最低延迟的最佳环和树集
支持多线程、多进程应用
InfiniBand 动词、libfabric、RoCE 和 IP Socket 节点间通信
通过 InfiniBand 自适应路由重新路由流量并缓解拥塞端口

资源

RESOURCES

NVIDIA Deep Learning SDK documentation
Technical Blog: Massively Scale Your Deep Learning Training with NCCL 2.4
Technical Blog: Scaling Deep Learning Training with NCCL 2.3
Related libraries and software:
- HPC SDK
- cuDNN
- cuBLAS
- DALI
- NVIDIA GPU Cloud
- Magnum IO

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/131968602

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)