E-HPC案例-数据迁移解决方案

前言

高性能计算(HPC)涉及计算,存储,网络等多个组成部分,存储是HPC整体解决方案里的重要部分,在很多应用领域,存储的性能是关键的因素。阿里云弹性高性能计算(E-HPC)集成阿里云上的多种存储服务NAS/CPFS/OSS,给用户提供高性能的存储方案。在多个用户使用E-HPC的过程中,都会涉及到数据迁移:

  • 数据上云:在E-HPC上提交计算任务之前,需要将本地数据上传到云上存储,不同应用领域数据量差别很大,从几百MB到几十TB不等,例如仿真算例从几百MB到几个GB,EDA领域数据量一般都在几个TB到几十TB,生物基因客户的输入文件也是非常大的。
  • 云上数据保存: 在E-HPC计算完毕之后,计算资源释放,数据需要保留一段时间,有些需要数据长期保存在云上
  • 数据下载到本地:部分客户是弹性使用云上资源,计算完毕,云上所有资源都会释放,计算结果文件就需要下载到本地

这里总结一下E-HPC用户常用的数据迁移和数据保存方案以及一些注意事项:
首先用户需要明确知道的是,数据存储在云上,无论是NAS还是OSS,数据不会被自动释放的,用户迁移完毕之后,需要及时将不需要的存储释放。

数据上云

用户可以通过多种方式将数据迁移到云上:

闪电立方:提供在线迁移和离线迁移方案

  • 在线迁移任务:支持OSS之间,NAS之间或NAS到OSS迁移数据;也支持从其他云服务迁移数据到阿里云
  • 离线迁移方案
    目前支持3种类型的设备:

闪电立方-Mini:适用40TB数据量的迁移
闪电立方-II:适用100TB数据量的迁移
闪电立方-III:适用480TB及其以上的数据量迁移
离线方案适合数据量特别大的场景,另外闪电立方数据是全程加密的,传输到闪电立方的所有数据均采用由客户管理的 256 位加密密钥。
闪电立方的具体定价和操作流程参见官网 https://cn.aliyun.com/product/mgw

本地直接上传

  • 从本地上传到OSS,传输速度主要受限于本地的网络带宽。如果用户已经和阿里云建立了专线(物理专线或者VPN通道),也可以通过专线上传。
    OSS提供了多种工具,图形化工具ossbrowser,命令行工具ossutil等,参见 https://help.aliyun.com/document_detail/44075.html

上传到OSS之后,在E-HPC集群上的任意节点,都可以使用ossutil将数据从OSS下载到NAS,也可以在多台节点上并发下载。E-HPC集群默认已经包含ossutil在/opt目录下。注意使用OSS内网域名,参见OSS访问域名使用规则, 内网产生的流入和流出流量均免费,但是请求次数仍会计费。

  • 从本地上传到NAS,用户本地通过sftp上传到集群登录节点,登录节点上已经挂载NAS文件系统。参见E-HPC节点NAS挂载目录规则, 这种方案受限于用户本地的网络带宽和登录节点上绑定的公网IP的带宽设置

云上数据保存

NAS预付费存储包

对于高频访问的数据,需要在集群计算中高频访问到的,可以放在NAS中。
NAS 提供通用型和并行文件系统 CPFS(Cloud Paralled File System) 两种存储类型。通用型分为容量型和 SSD 性能型,具体适用场景和定价参见 NAS概述
很多用户采用预付费存储包+按量付费的模式,例如预期数据大小在5TB-8TB之间,可以购买5TB的预付费存储包,高于5TB的部分,就使用按量付费,如果实际使用中,使用了6TB,那么只会有1TB的按量付费。

OSS存储

在E-HPC集群计算完毕之后,可以将数据从NAS迁移到OSS中,OSS支持三种存储类型

  • 标准存储:提供高可靠、高可用、高性能的对象存储服务,能够支持频繁的数据访问
  • 低频存储:适合长期保存不经常访问的数据(平均每月访问频率1到2次)
  • 归档存储:适合需要长期保存(建议半年以上)的归档数据,

重点注意事项是:

  • 低频访问存储类型的Object有最短存储时间,存储时间短于30天的Object提前被删除会产生一定费用
  • 归档存储类型的Object有最短存储时间,存储时间短于60天的Object提前删除会产生一定费用
  • 归档存储下载数据的时候,需要收取数据取回(解冻)的费用,具体见下一章节说明和OSS官方文档
    参见OSS计量计费规则
  • 数据从NAS上传到OSS之后,如果NAS中的数据无需再保存的话,用户需要主动将数据从NAS中删除,或者删除NAS文件系统, 注意NAS存储包到期之后,会自动转按量付费。

OSS数据下载到本地

  • 如果用户已经和阿里云建立了专线,可以通过专线,使用OSS内网域名
  • OSS服务费由存储费用、流量费用、请求费用、数据处理费用几部分组成
  • 归档存储下载的时候,需要收取数据取回(解冻)的费用,因此用户选择存储类型的时候,需要考虑这个因素
  • 请求费用与下载的文件数量有关,一个文件会触发一次请求
  • 流量可以购买下行流量包或者按流量付费,用户可以根据数据量大小来评估适合的方案
  • 如果从oss归档存储下载的话,需要先用ossutil批量解冻,参见批量解冻
    image.png

然后再用ossutil或者ossbrowser批量下载

另外参见RestoreObject, 解冻状态默认持续24小时,24小时内再次调用RestoreObject接口则解冻状态会自动延长24小时,最多可延长7天。
如果用户下载数据大于1天的话,用户需要在数据解冻状态下多次执行ossutil批量解冻命令

猜你喜欢

转载自yq.aliyun.com/articles/692757
今日推荐