【分享NVIDIA GTC 23大会干货】人工智能加速计算和科学计算的进展

【分享NVIDIA GTC干货】人工智能加速计算和科学计算的进展（Advances in Accelerated Computing for AI and Scientific Computing）报告视频链接

数据中心发展前景

三大趋势正在塑造数据中心的未来

能源限制。数据中心消耗了全球2%的资源，新的方法要求降低能耗的同时保持性能和可靠性
加速计算。加速计算的兴起正在改变数据中心，随着摩尔定律的结束，传统的CPU不再满足的资源或计算的需求，能耗和成本的增加不成比例。
AI 革命。 AI正在各个方面改变我们的生活和工作方式，基础AI模型带来了很多新的产品、应用和服务，实现了自动化和个性化。

加速计算需要对软件和硬件进行全栈的优化，并且一次只能完成一个特定的应用领域（分子遗传学、地震处理、量子化学）。NVIDIA在加速计算方面投资了近20年,在过去十年中，已经将HPC应用程序的性能提高了500倍，但这不仅仅是性能问题,更关注于可持续性和能源效率。

例如，世界500强超级计算机需要惊人的电力和能耗。然而，通过使用加速技术，NVIDIA已经可以大幅降低功耗并提高能源效率。

新产品介绍

计算平台

对AI任务来说,了解基础模型是非常重要的，这些经过预训练的模型具有许多通用技能，是构建各种应用程序的基础。

ChatGPT是一个分水岭，它将全世界的注意力集中在Al身上。

英伟达推出了一套经过预训练的生成Al模型，企业可以为其应用程序定制和部署这些模型。GPT模型非常适合执行各种任务，如内容生成摘要情感分析。

例如 BloomZ 这样的社区模型支持101语言的应用程序，包括翻译、自然语言理解和问答。使用这些模型，企业可以快速跟踪其生成Al的采用语言理解和问答使用这些模型，也通过各种方式定制模型，以符合其领域和业务目标，具体过程如下图所示。

在这里插入图片描述
Hopper GPU
Hopper架构GPU是当前Nvidia计算平台的核心，以解决最先进的Al和HPC工作负载。H100 GPU具有五项突破性创新以及更快、更强大的Tensor Core和NVLink。Hopper还推出了新的 DPX 指令，以加速动态编程应用程序。Golden Suite 是一种用来衡量Nvidia在HPC、Al和数据科学工作的进展工具。H100已全面投入生成，并被很多云服务商所采用。

H100
BlueField-3
BlueField-3 目前正在全面生产。它通过卸载CPU核心来减少服务器占用空间并降低功耗。它还实现了控制和管理平面应用程序的隔离，从而减少了攻击面。Bluefield是一款专门设计用于卸载和加速虚拟化、网络存储和安全软件的芯片 BlueField-3可以优化科学计算，其内核可以卸载和加速MPI集体操作，允许竞争和通信并行执行资源。

性能工具
Rescale刚刚发布了一项名为Performance Profiles的令功能。通过该功能，用户可以详细了解他们在各种计算、体系结构和规模级别上的工作负载和性能，如下图所示。颜色代表不同的系统。红色代表X86 CPU系统，蓝色和绿色代表是GPU加速的系统。图表显示，英伟达A100 GPU加速系统提供了最佳的性能和能效，同时也为提供了最低的功率和成本。

在这里插入图片描述

这部分是我本人比较感兴趣的，因为最近在做的课题是关于性能分析工具的。这项功能还是很强大的，但我认为应该不是在程序的实际运行中得出的结果，应该是模拟在不同系统上的运行。后续可能会详细了解一下。

推理平台

除了 Al 训练外，H100 在为Nvidia推理平台得到应用。随着生成Al的不断采用，需要更先进的计算解决方案来处理日益复杂的推理工作负载。

Triton是一款用于GPU和CPU的多框架推理服务开源软件。与之配套的TMS（Triton Management System）是一种自动化的资源高效的推理模型
TensorRT是一款适用于NVIDIA GPU的高性能深度学习推理SDK（这个想必大家都不陌生）TensorRT最近为基于GPT-3的大语言模型推出了GPU多节点推理

针对不同的推理任务推出了两款新型的GPU

一个用例是视频内容的推理，Al被用来理解视频内容是一种基于内容本身的转录增强现实和推理。新的 L4 GPU 针对视频传输编码、视频内容理解和AR进行了优化。
另一个用例是生成式AI，生成Al正在推动Al在图像、视频、文本甚至3D生成的日常用例中的爆炸式增长。L40 GPU可以在稳定扩散图像生成等工作负载上提供七倍以上的性能

在这里插入图片描述

最后介绍Grace Hopper推理
相比于传统系统，Grace Hopper 提供了7倍以上的带宽和显存容量。这使矢量数据库和推荐系统等大型内存工作负载具有最高的推理性能，同时 Grace CPU 被设计为与 Nvidia GPU 配对，以实现巨大的规模，且更擅长能效和数据库移动。

芯片设计

加速计算在芯片本身的设计中也发挥着重要作用。

光刻是芯片制造中的一个关键过程。挑战之一是计算掩膜，这是一项非常艰巨的任务。模拟处理现代芯片的光干涉模式每年需要花费数百亿CPU小时。我们宣布推出CuLitho，这是一个将加速计算引入计算光刻的库，使台积电等半导体领导者能够加速下一代芯片的制造。与传统CPU方法计算的对比如下图所

CPU和GPU计算掩膜耗时对比

Quantum平台

量子计算也是有巨大的潜力领域，但要使其成为现实，还需要克服一些重大挑战。最大的障碍之一是需要构建能够利用量子财产（如叠加和纠缠）的量子算法。需要新的工作流程，让量子开发者能够理解量子比特计算的物理和计算机科学的挑战。

Nvidia宣布了Nvidia Quantum平台，该平台由三部分组成。

cuQuantum 一组用于量子算法开发的加速库
CUDA Quantum 混合量子经典计算平台，集成异构的编程
DGX Quantum 构建量子计算和经典量子算法应用程序的系统

在这里插入图片描述
Nvidia Quantum平台解决了多个问题，例如纠错协作和控制的算法、QPU设计、混合应用程序开发以及与GPU的紧密集成，目前与多个厂商有着密切合作。

总结

这个报告粗略地讲解了Nvidia最近推出的，拥有强大功能的一些产品。它们提供了无与伦比的能力，将成为AI超级计算时代的生产力。Nvidia作为GPU加速领域当之无愧的领头羊，对产品和技术的更新是从事相关行业的人需要跟进的。

我们生活在一个充满机遇的时代，我们能够通过技术实现的可能性仅仅受制于人们的想象力！