NVIDIA DGX 与 NVIDIA HGX 有什么区别

我们经常收到的问题是 NVIDIA DGX 与 NVIDIA HGX 平台,以及它们的不同之处。虽然名称听起来相似,但它们是 NVIDIA 销售其带有 NVLink 的 8x GPU 系统的不同方式。NVIDIA 的商业模式在 NVIDIA P100“Pascal”和 V100“Volta”世代之间发生了变化,那时我们看到 HGX 模型真正腾飞到 A100“Ampere”和 H100“Hopper”世代的水平。

NVIDIA DGX 与 NVIDIA HGX 有什么区别

首先,当前的 NVIDIA DGX 和 HGX 产品线适用于通过 NVLink 连接的 8x GPU 平台。NVIDIA 还有其他主板,例如称为 Redstone 和 Restone Next 的 4x GPU 组件,但主要的 DGX/HGX (Next) 平台是使用 SXM 的 8x GPU 平台。

这是之前我们组装的NVIDIA Tesla P100 8x SXM2 GPU 系统。

DeepLearning12 初始齿轮加载

这个过程是每个制造商都会为 GPU 构建自己的底板。然后 NVIDIA 将出售 SXM 外形规格的 GPU,然后服务器制造商将 GPU 安装到服务器中。由于扭矩要求,安装 GPU 很困难。

DeepLearning12 半散热器已安装 800

随着 NVIDIA Tesla V100 转向 Volta 一代,NVIDIA 添加了更多 NVLink。

NVIDIA Tesla P100 V V100 拓扑结构

作为这个过程的一部分,NVIDIA 对整个 8x SXM GPU 平台进行了标准化。其中包括用于主机连接(以及后来的 Infiniband 连接)的 Broadcom PCIe 交换机。

Microsoft HGX 1 拓扑

它还添加了 NVSwitch。NVSwitch 是 NVLink 结构的交换机,允许 GPU 之间进行更高性能的通信。最初,NVIDIA 的想法是可以采用这些标准化电路板中的两个并将它们与这个更大的交换结构放在一起。不过,其影响是现在 NVIDIA GPU 到 GPU 的通信将发生在 NVIDIA NVSwitch 芯片上,而 PCIe 将具有标准化的拓扑结构。HGX 诞生了。

NVIDIA HGX 2 双 GPU 底板布局

以下是 2020 年服务器评测中的 8x NVIDIA V100。这也是 NVIDIA SXM 散热器的最佳配色方案。除了制作带 SXM3 插座的 NVSwitch 底板外,它还会安装 GPU 和冷却器。

Inspur NF5488M5 HGX 2 8x NVIDIA Tesla V100 SXM3 Volta 左下一个 NVIDIA Light

现在,服务器供应商可以直接从 NVIDIA 购买 8x GPU 组件,而不必冒着 GPU 被涂上厚层导热膏的风险。这也意味着 NVIDIA HGX 拓扑诞生了。服务器供应商可以根据需要在其周围放置任何金属。他们可以配置 RAM、CPU、存储等。所有这一切,前提是 GPU 部分是 NVIDIA HGX 底板的固定拓扑结构。

浪潮NF5488M5 Nvidia Smi拓扑结构

在下一代中,NVSwitch 散热器变得更大,GPU 失去了很好的油漆工作,但我们得到了 NVIDIA A100。

Inspur NF5488A5 NVIDIA HGX A100 8 GPU 组件 8x A100 和 NVSwitch 散热器第 2 面

该底板的代号是“Delta”。

Inspur NF5488A5 NVIDIA HGX A100 8 GPU 组装 Delta 标记

正式地,这块主板被称为 NVIDIA HGX。

HGX A100 主板中的 NVIDIA Tesla A100

此时,NVIDIA、其 OEM 和客户意识到,如果功率更大,相同数量的 GPU 可以完成更多工作。有一个问题。更多的力量意味着更多的热量。这就是我们开始看到液冷 NVIDIA HGX A100“Delta”平台的原因。

Supermicro 液冷 Supermicro AS 4124GO NART 风冷和液冷前端

这是一个挑战,因为 HGX A100 组件最初推出时附带了“NVIDIA”空气冷却器。

对于最新一代的“Hopper”,散热器必须变得更高,以适应更高功率的 GPU 以及更高性能的 NVSwitch 架构。这里是 NVIDIA HGX H100 平台“Delta Next”。

英伟达 DGX H100

NVIDIA 还为 HGX H100 提供了液冷选项。

HGX H100 中的 NVIDIA GTC 2022 H100

至此,我们已经了解了多个 NVIDIA HGX 平台。此时,值得注意的是 NVIDIA DGX 是什么。NVIDIA 从 P100 时代就有 DGX 版本,但 NVIDIA DGX V100 和 DGX A100 代使用 HGX 底板,然后围绕 DGX 构建服务器。NVIDIA 一直在轮换其用于每一代 DGX 的 OEM,但它们主要是固定配置。

NVIDIA DGX A100 概述

借助 NVIDIA DGX H100,NVIDIA 更进了一步。它有新的 NVIDIA Cedar 1.6Tbps Infiniband 模块,每个模块带有四个 NVIDIA ConnectX-7 控制器。通过收购 Mellanox,NVIDIA 开始转向 Infiniband,这是一个很好的例子。

NVIDIA DGX H100 Cedar 带天桥电缆

虽然 NVIDIA DGX H100 堪称 GPU 设计的黄金标准,但一些客户想要更多。这就是为什么 NVIDIA 拥有一个可以与专业服务等捆绑在一起的平台。然后它拥有 HGX H100 平台,因此 OEM 可以进行定制。我们已经看到了许多不同的设计。这些包括更密集的解决方案、用于更多内核的基于 AMD 或 ARM 的 CPU 解决方案、不同的 Xeon SKU 级别、不同的 RAM 配置、不同的存储配置,甚至不同的 NIC。

添加图片注释,不超过 140 字(可选)

也许最简单的思考方式是 NVIDIA DGX 系列作为 NVIDIA 的标准。它仍然围绕 NVIDIA HGX 8x GPU 和 NVSwitch 底板构建,但它是 NVIDIA 特定的设计。DGX 的趋势是 NVIDIA 在网络方面提供更高级别的集成,以安装到 DGX SuperPOD 等设备中以集群 DGX 系统。

最后的话

借助 NVIDIA HGX 基板,该公司消除了将 8 个 GPU 链接到高速 NVLink 和 PCIe 交换结构所需的大量负载工作。然后,它允许其 OEM 合作伙伴构建自定义配置,而 NVIDIA 可以以更高的利润为 HGX 主板定价。NVIDIA 的 DGX 目标与其许多 OEM 不同,因为 DGX 被用于追求高价值的 AI 集群和围绕这些集群的生态系统。

最简单的理解方式是:

  • NVIDIA HGX是 8x GPU 和 NVSwitch 基板

  • NVIDIA DGX是 NVIDIA 的系统品牌

NVIDIA HGX A100 和 HGX H100 自从被披露 OpenAI 和 ChatGPT 使用这些平台以来一直是热门商品。如果您想了解有关不同 HGX A100 平台的更多信息,请参阅8x NVIDIA A100 为工具提供动力,也可访问【风虎信息科研服务器】,或来电咨询【173-1639-1579】

H100、A100、H800、A800、RTX6000 Ada、A6000、A40、RTX4090等GPU显卡,服务器CPU,科研服务器整机、计算集群搭建,单台双路192核心服务器..........................

猜你喜欢

转载自blog.csdn.net/Ai17316391579/article/details/132313983