世界上最快的超级计算机现在在ORNL运行生产工作量

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kwame211/article/details/86611985

世界上最快的超级计算机现在正在ORNL上运行生产工作负载。

Oak Ridge国家实验室200 petaflop Summit超级计算机的一年的验收工作现已完成。验收测试确保超级计算机及其文件系统满足设施和供应商商定的功能,性能和稳定性要求。

为了成功完成验收,Oak Ridge领导计算机构(OLCF)与系统供应商IBM密切合作,测试数百个系统要求并修复任何由此产生的硬件,软件和网络问题。

“像Summit这样的系统通常是第一序。市场上没有像Summit这样的东西,这是第一次对其规模系统进行测试。”Verlica Melesse Vergara,OLCF高性能计算(HPC)支持专家和Summit接受领导说。

在2018年6月和11月,Summit在基于高性能Linpack基准测试的世界上最强大的超级计算机的两年一度的TOP500排行榜上名列第一。Summit的存储系统Alpine也在11月IO-500排行榜上排名第一,成为世界上最快的存储系统。

验收测试是OLCF、IBM以及合作伙伴NVIDIA,Mellanox和Red Hat的共同努力。Summit的架构包括4,608个计算节点,每个节点包含两个IBM Power9 CPU和六个与Mellanox InfiniBand互连相连的NVIDIA Volta GPU。Summit在Red Hat的Linux操作系统上运行。Alpine是一个250 PB的IBM Spectrum Scale并行文件系统。

“所有五个组织密切合作,共同寻找,确定优先级和修复问题,这是接受的目标之一:现在验证和修复问题,以便系统为科学家提供高效工作。”国家计算科学中心主任吉姆罗杰斯说。

验收测试的结束标志着机器科学使命的开始。来自OLCF早期科学计划和DOE创新和新颖的理论与实验计算影响(INCITE)计划的用户将于2019年1月开始峰会工作。

第一步:功能

验收测试的三个主要步骤可确保机器准备好进行全面生产,并回答基本问题:机器是否可以正常工作?它能成功运行用户的科学代码吗?它能运作良好并在全面生产中运行科学规范吗?

在功能测试期间,所有系统组件和功能必须成功运行,如果失败,则按预期进行恢复。

在功能测试结束时,工作人员确信他们可以在系统上编译和运行作业。这是开始性能测试第二步的重要要求。

罗杰斯评估了该机器是否符合其TPO角色的验收要求,表示Summit的验收计划是根据之前的OLCF系统验收计划建模的,包括该设施的Titan和Jaguar超级计算机。然而,Summit带来了新一代的复杂性。

直接在节点上的传感器使OLCF人员能够将诸如冷却温度或网络速度等数据点与诸如数据传输或GPU利用率之类的性能度量相关联。通过这种方式,传感器不仅在接受期间起作用; 它们还将用于机器的使用寿命,以帮助操作员预测和计划维护。

第二步:表现

为了满足性能要求,与OLCF以前的科学工作车型27-petaflop Titan系统相比,Summit需要为科学应用提供平均5倍的加速。

戈登贝尔奖决赛入围者的早期结果表明,一些代码已经看到了超过这个标志的加速。

文件系统性能对系统性能也很重要。Alpine性能要求包括每秒2.5太字节的数据传输速度。

“文件系统是Summit接受的入口和出口点。为了让用户在超级计算机上运行,​​文件系统的运行至关重要。”OLCF HPC存储工程师和Alpine接受负责人Dustin Leverman说道。

第三步:稳定

为了确保Summit的众多处理器和节点中的任何一个故障不会影响Summit用户,稳定性测试会监控系统在真实条件下的弹性。

稳定性测试是验收测试的最后和最艰苦的一步,因为它模拟了一个现实的工作负载,使系统充斥着来自不同科学应用的数千个工作。

“在稳定性测试期间,我们在一个节点上运行作业,一直到系统的整个尺寸。”Maxwell说。

为了有效监控所有这些作业的性能,OLCF使用“测试工具”来跟踪每个作业在系统上部署和执行时的状态。稳定性测试持续两周。同时,已完成的功能测试和性能测试必须同时运行以测试系统的弹性。

现在首脑会议已经通过验收,科学家们可以认真开始工作。
 

猜你喜欢

转载自blog.csdn.net/kwame211/article/details/86611985