虹科案例 | 超级计算中心如何使用高性能计算推进科学研究?

计算、理论、实验被称为现代科学研究的“三驾马车”,无论是高校、研究所还是企业,高性能计算对于材料、化学、计算机、工程、生命科学、大气等领域以及计算机辅助工程 (CAE) 、计算流体动力学(CFD)、电子设计自动化(EDA)、分子动力学(MD)等技术的科学研究都至关重要。

北德超级计算联盟简介

北德超级计算联盟(HLRN)成立于2001年,是德国北部七个州的联合项目。HLRN超级计算机已被100多所大学和120多家研究机构所使用,以此探索科学研究的许多前沿领域,帮助开启更美好的未来。HLRN III超级计算机系统在2014年1月被研发出来,是世界上最强大的超级计算机之一,拥有约25000台高端PC的计算能力,由柏林Zuse研究所和汉诺威莱布尼茨大学对其进行托管。

HLRN面临的挑战

1.需要启用并行计算来管理和优化站点:为了给德国北部各州提供强大、高效的PB级计算资源,HLRN需要将HLRN III作为一个组合系统联合运行。然而,对两个远程位置进行负载平衡是有挑战的,例如时间延迟和独立集群之间不断变化的通信。因此,HLRN需要启用并行计算来管理和优化柏林和汉诺威站点之间的多个集群。

2.难以处理庞大的计算作业:作为由德国州和联邦政府资助的非营利组织,HLRN的超级计算系统除了免费为德国北部的科学家和研究人员提供重要服务外,HLRN还为组织的项目提供技术支持以解决关键用户问题,例如优化、批量处理作业、资源分配等,这导致HLRN III的需求量很大。为了处理如此庞大的计算作业队列,柏林和汉诺威站点必须保持24h全天候运行,这给资源正常运行时间和作业吞吐量带来了非常大的挑战。

3.工作负载要求多:HLRN每分每秒都运行着150多个项目,平均作业大小为10GB,这些项目对工作负载具有不同的要求,因此需要研究人员创建自定义应用程序。

4.项目准备时间长:一个项目成功完成后,必须创建新的数据集为下一个传⼊项目做准备,HLRN的顾问帮助系统可能需要几天甚至几周的时间去准备算法以运行密集计算。

HLRN选择虹科Adaptive高性能计算套件Moab

HLRN于2008年开始使用Moab来管理其计算工作负载,目前在其分布式Cray XC30的超级计算系统“HLRN III”上运行Moab HPC Suite企业版。HLRN站点利用Moab来支持其在广泛领域的先进科学研究,包括生物信息学、化学、气候和海洋建模、工程、环境研究、流体动力学和物理学等领域。其次,还利用Adaptive Big Workflow(即更高效的处理密集模拟和大数据分析)来加速数据洞察和解决HLRN的大数据挑战,使得研究人员能够在复杂的异构HPC集群环境中提供有价值的⻅解,而Moab HPC Suite是Adaptive Big Workflow解决方案中不可或缺的一部分。

Moab HPC Suite(Moab高性能计算套件)是虹科Adaptive Computing的一个工作负载和资源编排平台,可自动调度、管理、监控和报告大规模的HPC工作负载。获得专利的Moab智能引擎使用多维策略和先进的未来建模以优化各种资源上的工作负载启动和运行时间。这些策略平衡了高利用率和吞吐量目标与相互竞争的工作负载优先级和SLA要求,从而通过优先级顺序在更短的时间内完成更多的工作。Moab HPC Suite 优化HPC系统的价值和可用性,同时降低了管理成本和复杂性。
推荐阅读:《虹科Adaptive Computing 高性能计算解决方案》

高性能计算解决方案

1.选择Moab HPC Suite:为了充分满足其研究目标并实现并行计算,HLRN选择了Moab HPC Suite作为其新的分布式超级计算系统。HPC套件由Adaptive Computing的智能工作负载管理软件Moab提供⽀持,该软件可根据策略优化跨工作负载并调度、管理资源。

2.通过BigWorkflow进行模拟和数据分析:为了将两个集群的计算资源结合起来,HLRN通过Big Workflow进行模拟和数据分析。Big Workflow还能够协调和优化分析流程,以提高吞吐量和生产力,降低成本、复杂性和错误。即使面临大数据挑战,HLRN仍然可以保证最大限度地延长正常运行时间、保证服务交付且资源得到公平分配。

3.使用Moab模块:在Moab HPC Suite企业版中,HLRN使用了许多Moab模块。

扫描二维码关注公众号,回复: 14583828 查看本文章

网格管理-统一工作负载决策

Moab模块中强大的网格工作负载管理解决方案使HLRN能够连接柏林和汉诺威不同集群并共享计算资源,这允许HLRN跨策略和资源同步管理、合并报告、优化跨集群的工作负载共享和数据管理。此外,网格环境使HLRN能够同时在两个站点上运行计算作业,自动化和统一所有复杂的工作负载决策,从而实现更大的负载平衡。

策略引擎-加速生产力

随着条件和工作负载的变化,Moab能主动满足HLRN的优先事项,优化HLRN集群利用率。例如:如果一组研究人员在某个时间没有工作要运行时,Moab将允许运行其他具有低优先级的作业(进行回填调度)。此外,策略引擎也将自动确保正确的工作负载在最佳时间的运行(例如,回填作业获得低优先级或在预期运行新的⾼优先级作业时暂停)。

计费管理-预算保证

HLRN将MAM(Moab Accounting Manager)与其会计软件集成,从而根据资源共享协议安排资源。此功能用于管理不同研究组的账户,确保每个研究组都能基于预算、时间和MAM中可用的其他参数来“公平、共享”使用集群的。此外,MAM可以使HLRN的预算分配与利用率保持一致,确保不超过使用限制和执行预算。

价值成果

HLRN在使用Moab HPC Suite后获得了如下成果:

1.实现并行计算:通过协调的动态配置和多集群网格环境,Moab HPC Suite使HLRN能够利用其分布式超级计算系统实现并行计算。

2.统一任务管理:通过Big Workflow将两个集群作为一个生态系统运行,HLRN能够统一管理从工作流调度到账户管理的所有任务。

3.满足工作负载需求:通过Moab的调度能力,HLRN不仅可以更好地处理激增的工作负载需求,在多个异构系统之间实现更⾼的管理效率,还能够满足大量的需求并提高作业吞吐量。

4.最大化多集群ROI:Moab使HLRN实现高达80%的资源利用率、最大限度地提高用户生产力并满足大量工作负载需求并基本消除工作延误和故障。

Moab的这些优势加快了HLRN研究人员的分析速度,帮助科学研究快速”打开新世界的大门“!

推荐阅读:
《超级计算中心如何使用高性能计算推进科学研究?》

虹科云科技,主要分享云计算、数据库、商业智能、数据可视化、高性能计算等相关知识、产品信息、应用案例及行业信息,为学习者传输前沿知识、为技术工程师解答专业问题、为企业找到最适合的云解决方案!

猜你喜欢

转载自blog.csdn.net/hongcloudtech/article/details/128669441