前言
高性能计算(HPC)涉及计算,存储,网络等多个组成部分,存储是HPC整体解决方案里的重要部分,在很多应用领域,存储的性能是关键的因素。阿里云弹性高性能计算(E-HPC)集成阿里云上的多种存储服务NAS/CPFS/OSS,给用户提供高性能的存储方案。在多个用户使用E-HPC的过程中,都会涉及到数据迁移:
- 数据上云:在E-HPC上提交计算任务之前,需要将本地数据上传到云上存储,不同应用领域数据量差别很大,从几百MB到几十TB不等,例如仿真算例从几百MB到几个GB,EDA领域数据量一般都在几个TB到几十TB,生物基因客户的输入文件也是非常大的。
- 云上数据保存: 在E-HPC计算完毕之后,计算资源释放,数据需要保留一段时间,有些需要数据长期保存在云上
- 数据下载到本地:部分客户是弹性使用云上资源,计算完毕,云上所有资源都会释放,计算结果文件就需要下载到本地
这里总结一下E-HPC用户常用的数据迁移和数据保存方案以及一些注意事项:
首先用户需要明确知道的是,数据存储在云上,无论是NAS还是OSS,数据不会被自动释放的,用户迁移完毕之后,需要及时将不需要的存储释放。
数据上云
用户可以通过多种方式将数据迁移到云上:
闪电立方:提供在线迁移和离线迁移方案
- 在线迁移任务:支持OSS之间,NAS之间或NAS到OSS迁移数据;也支持从其他云服务迁移数据到阿里云
- 离线迁移方案
目前支持3种类型的设备:
闪电立方-Mini:适用40TB数据量的迁移
闪电立方-II:适用100TB数据量的迁移
闪电立方-III:适用480TB及其以上的数据量迁移
离线方案适合数据量特别大的场景,另外闪电立方数据是全程加密的,传输到闪电立方的所有数据均采用由客户管理的 256 位加密密钥。
闪电立方的具体定价和操作流程参见官网 https://cn.aliyun.com/product/mgw
本地直接上传
- 从本地上传到OSS,传输速度主要受限于本地的网络带宽。如果用户已经和阿里云建立了专线(物理专线或者VPN通道),也可以通过专线上传。
OSS提供了多种工具,图形化工具ossbrowser,命令行工具ossutil等,参见 https://help.aliyun.com/document_detail/44075.html
上传到OSS之后,在E-HPC集群上的任意节点,都可以使用ossutil将数据从OSS下载到NAS,也可以在多台节点上并发下载。E-HPC集群默认已经包含ossutil在/opt目录下。注意使用OSS内网域名,参见OSS访问域名使用规则, 内网产生的流入和流出流量均免费,但是请求次数仍会计费。
- 从本地上传到NAS,用户本地通过sftp上传到集群登录节点,登录节点上已经挂载NAS文件系统。参见E-HPC节点NAS挂载目录规则, 这种方案受限于用户本地的网络带宽和登录节点上绑定的公网IP的带宽设置
云上数据保存
NAS预付费存储包
对于高频访问的数据,需要在集群计算中高频访问到的,可以放在NAS中。
NAS 提供通用型和并行文件系统 CPFS(Cloud Paralled File System) 两种存储类型。通用型分为容量型和 SSD 性能型,具体适用场景和定价参见 NAS概述
很多用户采用预付费存储包+按量付费的模式,例如预期数据大小在5TB-8TB之间,可以购买5TB的预付费存储包,高于5TB的部分,就使用按量付费,如果实际使用中,使用了6TB,那么只会有1TB的按量付费。
OSS存储
在E-HPC集群计算完毕之后,可以将数据从NAS迁移到OSS中,OSS支持三种存储类型
- 标准存储:提供高可靠、高可用、高性能的对象存储服务,能够支持频繁的数据访问
- 低频存储:适合长期保存不经常访问的数据(平均每月访问频率1到2次)
- 归档存储:适合需要长期保存(建议半年以上)的归档数据,
重点注意事项是:
- 低频访问存储类型的Object有最短存储时间,存储时间短于30天的Object提前被删除会产生一定费用
- 归档存储类型的Object有最短存储时间,存储时间短于60天的Object提前删除会产生一定费用
- 归档存储下载数据的时候,需要收取数据取回(解冻)的费用,具体见下一章节说明和OSS官方文档
参见OSS计量计费规则 - 数据从NAS上传到OSS之后,如果NAS中的数据无需再保存的话,用户需要主动将数据从NAS中删除,或者删除NAS文件系统, 注意NAS存储包到期之后,会自动转按量付费。
OSS数据下载到本地
- 如果用户已经和阿里云建立了专线,可以通过专线,使用OSS内网域名
- OSS服务费由存储费用、流量费用、请求费用、数据处理费用几部分组成
- 归档存储下载的时候,需要收取数据取回(解冻)的费用,因此用户选择存储类型的时候,需要考虑这个因素
- 请求费用与下载的文件数量有关,一个文件会触发一次请求
- 流量可以购买下行流量包或者按流量付费,用户可以根据数据量大小来评估适合的方案
- 如果从oss归档存储下载的话,需要先用ossutil批量解冻,参见批量解冻,
然后再用ossutil或者ossbrowser批量下载
另外参见RestoreObject, 解冻状态默认持续24小时,24小时内再次调用RestoreObject接口则解冻状态会自动延长24小时,最多可延长7天。
如果用户下载数据大于1天的话,用户需要在数据解冻状态下多次执行ossutil批量解冻命令