一文讲清后摩尔时代国产高性能并行应用软件生态建设

摘自《后摩尔时代国产高性能并行应用软件生态建设综述》

作者:

龚春叶1,刘杰1,包为民2,潘冬梅1,甘新标1,李胜国1

陈旭光1,肖调杰1,杨博1,王睿伯1

(1.国防科技大学 并行与分布处理国家重点实验室,湖南 长沙 410073: 2.中国航天科技集团有限公司 科技委,北京 100048)

摩尔时代已经终结,后摩尔时代的大门徐徐开启。摩尔定律作为经验性预判,预测了集成电路芯片密度/性能约每 18 个月提高一倍,在 20 世纪80-90年代成为业界认可的规律,体现了摩尔对信息产业发展的深刻洞见。Kim等对晶体管漏电效应进行了深入探讨,认为能耗已经成为芯片设计的主要限制。Nature认为摩尔定律在走向终结。摩尔定律终结来自物理规律的限制。2021年最先进的流片工艺约为5 nm,硅原子的直径大概0.23 nm。假设工艺能够提升到1nm,那么只能放下 4 个硅原子,即使不考虑成本,物理规律上也不可能进行如此精确的电路控制。

高性能计算系统是大国竞争的一个战略制高点,国产高性能计算系统发展迅速,我国自主系统已经取得了以天河、神威为代表的重大技术突破。2011年国防科技大学研制的天河一号2.566 Pflops实测双精度浮点计算性能首次排名TOP 500第一,开创CPU/GPU 异构计算潮流。随后,天河二号、太湖之光等国产HPC系统也连续多次排名世界第一。2018年美国排名TOP 500第一的summit超算系统采用的也是与天河一号相同的CPU/GPU异构架构,体现了中国首创体系架构得到认可。

高性能计算主要应用于大科学、大工程以及产业升级和信息化建设等领域,是“理论、实验、计算”三大科研手段之一,是建设创新型国家、提高科技创新能力的重大基础设施,是解决大工程挑战性问题的重大支撑平台,直接带动微电子、光通信、软件研发等相关产业的发展,是引领高端信息产业发展的辐射源,将为推进科技强国战略,建设创新型国家作出重大贡献。

应用需求是信息科技发展的第一推动力。近几十年信息技术的发展都是由应用需求直接推动,

尤其是传统图像和视频交换处理需求。图像和视频交换处理需求一方面推动了网络性能的提高,如千兆到万兆网络,2G、3G到4G、5G技术的发展,核心路由器交换机能力的提升;另一方面推动了图形图像处理芯片GPU的诞生和发展,助推了基于GPU的HPC、虚拟货币挖矿和人工智能三波技术浪潮。由于人眼的物理限制,传统图像和视频交换处理需求对信息技术的需求和摩尔定律一样趋于终结,高性能并行应用需求将在未来扮演更加重要的角色。高性能并行应用软件是连接超算系统和客观物理世界的桥梁,是最终与人直接交互的对象。国产高性能并行应用软件滞后的现实成为制约我国HPC和信息技术发展,乃至整个人类文明发展的关键因素,亟需大力发展和建设好国产高性能并行应用软件生态。

1 国产高性能计算系统发展现状

1.1 系统研制世界领先

我国HPC系统经过40余年的发展,逐步走在世界前列,显著成果包括天河一号、天河二号、

天河E级原型机及神威太湖之光等系统。天河一号采用如图

所示的CPU/GPU异构体系架构,包含 CPU/GPU 计算节点 7 168 个,FT1000计算节点2048个,自主高速网络,内存容量为262 TB,存储容量为2 PB,主要应用于材料计算、石油勘探、天气预报和生物医药等领域。每个CPU/GPU 计 算 节 点 包 含 2 个 Intel Xeon X5670CPU,1个NVIDIA M2050 GPU。天河一号系统峰值性能 4.700 Pflops,实测性能达到 2.566 Pflops,位居2010年11月TOP500排行榜第一位,是我国首台排名世界第一的HPC系统,开创了我国超算的新历史。天河一号主要挑战来自 2 个方面:一个方面是技术上的挑战,开创性提出CPU/GPU异构融合架构,技术风险极大;另一方面来自应用需求方面的挑战,至今,含有 7 168 块 GPU 的超算系统仍是独树一帜的存在。

天河二号连续6次排名TOP500排行榜第一,5次位居HPCG排行榜榜首。天河二号包含125个

计算机柜,合计16 000个计算节点,实测性能达到 33.86 Pflops。每个计算节点有 2 个 Intel XeonE5-2600 CPU 和一个 Intel Xeon Phi(MIC)加速器。在应用软件方面,Graph500 BFS算法取得非常好的可扩展性,gyrokinetic toroidal code(GTC)核聚变、并行分子对接和全球气象模拟取得了较好的加速和并行效果。天河E级原型机采用全国产的Matrix-2000+芯片,512节点达到3.15 Pflops的峰值性能,内存容量98.3 TB,存储容量1.4 PB。应用软件方面,流体计算、多尺度湍流燃烧、电磁仿真等近20个应用扩展到全系统。在一个多月内移植了100余款应用,包 括 VASP、 Octopus、 Gromacs、 Lammps、NAMD、ROMS、Wannier90、QE、WRF、Geant 4、OpenFoam等,同时支撑了20世纪十大算法中8个算法、九大领域、75%的国家重大专项、数十个重点研发计划项目,在应用生态建议方面提供了极好的示范。

神威太湖之光采用sw26010芯片,内存容量1.31 PB,存储容量20 PB,峰值性能达到125 Pflops,实测性能达到 93 Pflops。应用软件方面,社区大气模型、非静力气象模拟、全球表面波模拟和硅纳米线原子模拟等应用扩展到大规模。

1.2 芯片体系架构百花齐放

国产芯片从兼容ARM到完全自主内核,体现了国产芯片架构蓬勃发展的良好局面。基于 ARM 的飞腾处理器和鲲鹏处理器在应用生态方面占有优势。FT2000+采用64 ARMV8小米核,双精度峰值性能达到 588.8 Gflops,功耗为 96 W,频率 2.3 GHz。每个核有 32 kB 私有L1缓存,4核共享2 MB L2缓存。鲲鹏920最高支持 64 核,兼容 ARMV8-A 架构的 Taishan 核 ,每个核有64 kB L1指令缓存和64 kB L1数据缓存512 kB L2 缓存,8 个 DDR 控制器。因为兼容ARM 生态,所以在工具链、算法库及应用方面占有优势。

国防科技大学研制的天河新一代超算系统采用自主设计的CPU+GPDSP异构融合架构,由多核CPU和4个GPDSP簇组成,在高性能、高效能和高可编程性方面取得突破,如图2所示。

多核CPU采用兼容ARM指令集的FT-C662 CPU内核。每个GPDSP簇包含24个自定义指令集FT-M64DSP核。FT-M64DSP 核 采 用 超 长 指 令 字 (very longinstruction word,VLIW)技术和标向量融合结构,其中向量部件由16个同构的VPE阵列组成,每个VPE 内部包含 3 个乘加单元。芯片峰值性能在10 Tflops以上,能效达到50 Gflops/W。在访存带宽方面,GPDSP 核内私有存储峰值带宽达到98 TB/s,全局共享存储峰值带宽达到 1.2 TB/s,

HBM存储峰值带宽达到1.2 TB/s。GPDSP的私有存储和GPU上的共享存储均属于可编程缓存,是发挥应用程序性能的关键,也可以预测是未来芯片体系架构的重要研究方向。DGEMM实测效率约为94%,在深度卷积神经网络推理计算方面性能能够达到15 108 fps,接近NVIDIA V100的2倍。sw26010 异构众核处理器

通过片上网络互连4个核组,每个核组包含一个主核MPE、64个从核 CPE,频度 1.45 GHz,双精度峰值性能达到3 Tflops。主核的 L1 指令和数据缓存均为 32 KB,L2 缓存大小为 256 KB。从核阵列按照 8×8 的结构排列,可以直接理解成 64 核,每个从核拥有16 KB 的 L1 指令缓存 和一个 64 KB 的可编程局部存储空间(scratch-pad memory,SPM)。核组的概念和 GPDSP 簇的概念类似,主要针对数据一致性。

1.3 国家超算中心形成良性可持续发展动力

国家超算中心,尤其是天津中心、广州中心和长沙中心,在商业化运营方面走出了中国特色道路。国家超算天津中心的天河一号于2011 年上线运行,3 年内实现自负盈亏,略有盈余。在此基础上,团队得到数倍的扩充,技术实力得到极大增强。天河一号目前仍在运营,根据TOP500历年统计数据,它是运营时间最久的曾在TOP500排名第一的系统,这体现了系统研制方的技术实力及运营方的维护保障能力。国家超算广州中心基于天河二号,支撑了数千家用户,是目前世界用户量、资源使用量排名前列的超算中心,具有全球范围运营示范效应。国家超算长沙中心走出了与地方产业深度融合的产业化道路,助推中南地区智能装备制造、有色金属研制、局部极端天气预报等优势行业快速向前发展。

2 国产高性能并行应用软件生态

现状

2.1 关键技术点世界领先

国内在可扩展并行算法及并行应用方面取得世界领先成果。在面向异构体系结构相适应的并行算法及优化方法方面,取得了较多的创新成果,把我国高性能并行应用软件在极大规模可扩展并行计算方面推向了一个新的高度。在天河一号粒子输运方面开展了基于GPU的三维结构化网格、二维非结构化网格及非确定性蒙特卡罗异构并行算法研究,获得到3倍左右的加速效果。三维结构化网格粒子输运和高精 度 计 算 流 体 动 力 学 (computational fluiddynamics,CFD)模拟扩展到 1 024 节点仍然可以获得非常好的并行效率。在天河二号上,德国慕尼黑工业大学等合作团队开展的真实地震波传播模拟获得了国际应用领域的最高奖项——戈登·贝尔奖提名。该研究在IntelXeon Phi上移植并优化了基于高阶间断有限元的地震波模拟程序,该应用程序能够较好地模拟1992年美国加州兰德斯地震的地震波传播,并在8 192节点上实现了8.6 Pflops的持续性能。

在天河新一代高性能计算机系统上,中山大学、国防科技大学等合作团队开展的“基于自由能

微扰-绝对结合自由能方法的大规模新冠药物虚拟筛选”工作获得2021年度戈登贝尔新冠特别奖

提名。该研究在天河新一代高性能计算机系统上实现了FEP-ABFE程序的大规模并行计算,并用于新冠应急药物的筛选,如图3所示。该应用针对2个新冠相关的重要靶点,在75 000节点上一周内完成了12 000个药物-靶标体系的精准评价计算,药物筛选整体效能较前期工作提升了200倍。

面向国产飞腾处理器和天河超级计算机系统设计优化的天图系统连续 2 次蝉联 Graph500

SSSP 世界第一,GreenGraph BIG Data 世界第一,GreenGraph Small Data 世界第二,Graph500 国内第一,实现了国产超算图计算优化的跨越式发展,如图4所示。在太湖之光等系统上,千万核可扩展全球大气动力学全隐式模拟、高可扩展性的非线性大地震模拟和超大规模量子随机电路实时模拟先后获得戈登·贝尔奖。

2.2 应用支撑环境发展迅速

应用支撑环境主要包括前处理、后处理和共性算法库。前处理软件主要包括CAD建模及网格生成软件。Open Cascade 是一套开源 CAD/CAM/CAE 几何模型核心代码,可以应用于构建复杂的几何模型及其布尔运算。国家数值风洞网格生成软件网格之星 NNW-Gridstar,基于网格拓扑框架构造技术实现了复杂外形结构网格附面层的自动生成,具备良好的人机交互功能和模块设计,定位于CFD网格生成领域,目前支持结构网格和非结构化网格生成。中国工程物理研究院高性能数值模拟软件中心开发的SuperMesh是一款面向大规模复杂数值模拟的前处理软件,具备强大的并行网格生成功能,支持基于复杂几何构型的结构网格、非结构网格和组合几何体的高度自动化生成。

SuperMesh 已成功应用于复杂电磁环境、粒子输运、结构强度、CFD计算等领域。面向全国产超算系统研发的银河网格生成(YHGRID)网格生成软件

在一定程度上具备国外商业软件国产化替代能力,如图5所示。YHGRID支持飞腾芯片和麒麟操作系统,提供流畅的界面可视化操作、比较完善的几何模型处理及网格格式转换、高质量结构和非结构网格生成及优化功能,支持三角形、四边形、四面体和六面体等单元类型,支持全局和局部的网格尺寸设置,提供网格局部编辑功能、网格优化功能和多尺度质量评价功能。后处理软件主要指可视化和数据分析软件。

目前,ParaView是一款常用、功能强大的开源、跨平台数据分析和可视化软件,具备丰富的可视化功能,支持常见的文件格式,同时稳定性和实用性也在实践中得到证明。共性算法库是连接底层硬件体系架构和上层应用软件的桥梁。我们承担的国家重点研发计划项目《E级计算可扩展高效能并行算法及算法库》

针对百亿亿次可扩展并行计算问题,研究了超大规模网格高效生成方法、可扩展并行求解器和共性基础算法,研制了能够高效使用百万核量级的高效能并行算法库,如图 6 所示。在重大行业和基础研究领域开展了 E 级计算典型应用示范,突破了科学计算应用软件可扩展性差和计算效率低的瓶颈,促进了高性能计算机和大规模科学计算的协调发展,实现了我国高性能科学计算的跨越式发展。共性算法库的研制对人力资源消耗巨大,完善非一日之功。以 NVIDIA GPU 加速库

为例,分成 6 个类别,包括数学库、并行算法库、图像和视频库、通信库、深度学习库和第三方库。数学库包括基本数学函数库、BLAS、FFT、稀疏BLAS、稠密稀疏线性系统直接求解和代数多重网格等。并行算法库主要指C++版的并行算法和数据结构的 Thrust,用于排序、前辍求和和归约等操作。图像和视频库主要包括JPEG、编码和解码SDK和光流DSK等,有数千个优化函数。通信库主 要 包 括 满 足 OpenSHMEM 存 储 模 型 标 准 的NVSHMEM,多节点和多 GPU 通信的 NCCL。深度学习库主要包括大家常用的 DNN 加速库 、DeepStream SDK 和图像处理的 DALI 等。第三方库主要指常用特定领域算法库的GPU加速,包括图像处理OpenCV、多媒体处理FFmpeg、矩阵及信息处理ArrayFire和线性代数库MAGMA等。国产架构上的共性算法库可以参照GPU的加速库进行总体设计和对标。

稠密线性系统求解库 SCALAPACK、稀疏线性系统求解库 PETSc 和快速傅里叶变换 FFTW 在

HPC 领域应用广泛。OpenBLAS 是目前应用广泛的开源 BLAS 库,也是为数不多的具有世界级影响力的中国开源项目。

2.3 工业软件是先进制造业的“灵魂”,已成为中国制造“软肋”工业软件,尤其是研发设计类工业软件是我国工业化信息化、智能装备制造、电子装备设计和科学基础研究的基础,是智能制造产业链的核心环节,是先进制造业的“灵魂”。当前我国工业软件已经成为制造业向高端制造转型升级中的关键短板,其发展持续受到国家关注。实现工业软件的自主可控,是提升科研自主创新能力的关键环节。

国外工业软件在商业化和开源 2 个方面对国内形成碾压态势。商业软件主要包括美国Ansys、德国西门子和法国达索公司的各种商业化软件。Ansys 软件系统包括 Fluent 计算流体力学软件、Mechanical高级结构力学分析、HFSS 高频电磁场仿真、Maxwell 低频电磁场仿真/Simplorer 系统设计仿真技术、Discovery Live 即时仿真、CFX专业的流体力学分析、TURBO SYSTEM 旋转机械分析系统、Additive Suit 增材制造工艺仿真套件、Multiphysics多物理场仿真、Professional专业结构分析及热分析、Structural通用结构力学分析、LSDYNA

高 度 非 线 性 显 式 动 力 学 分 析 、 RigidDynamics 刚体动力学分析、ICEPAK 专业电子热设计和 Workbench 仿真工具应用集成环境等数十个软件。在开源软件方面,VASP、Gromacs、WRF、 LAMPPS、 OpenFoam、 NAMD、 Amber、Salome等在业内外得到广泛认同。国内在若干方向上有国产化替代软件,但是从功能全面性的角度看差距非常大。

国内在工业软件方面做出了有益的探索。国家数值风洞(NNW)工程是由中国空气动力研究与发展中心联合国内优势单位共同论证和规划,服务国内装备研发自主创新需求,支撑制造工业数字化转型,解决战略产业的大型国产自主空气动力数值模拟软件建设项目,软件包括 NNWGridStar、NNW-FlowStar、NNW-Topviz和开源的NNW-PHengLEI。空间物理重点实验室研发的MuSCLE 实现了高精度多尺度湍流燃烧模拟,如图7所示。

《新时期促进集成电路产业和软件产业高质量发展的若干政策》要求“聚焦集成电路设计工具、基础软件、工业软件、应用软件的关键核心技术研发,不断探索构建社会主义市场经济条件下关键核心技术攻关新型举国体制。科技部、国家发展改革委、工业和信息化部等部门做好有关工作的组织实施,积极利用国家重点研发计划、

国家科技重大专项等给予支持”。这为工业软件等发展指明了方向。

2.4 人才队伍及制度建设挑战巨大

高性能并行应用软件人才队伍建设方面的挑战来自人员素质和待遇 2 个方面。人员素质主要

指研发人员通常需要跨学科背景,团队成员需要对物理模型、数学方法、程序实现和并行优化等多方面都有深入了解。而从事传统高性能并行应用软件开发的待遇无法跟从事互联网开发、游戏开发、人工智能和新兴领域的研发待遇相提并论,导致从业人员流失严重。同时在高校科研方向也可以看出,选择热门人工智能等方向的多,愿意从事传统HPC方向的研究生很少。

猜你喜欢

转载自blog.csdn.net/YDM6211/article/details/131186929