高通量计算系统HTCondor与阿里云互连互操作

高通量计算系统HTCondor与阿里云互连互操作

第一部分:HTCondor

1.什么是HTCondor

HTCondor是一个专门针对计算密集型工作的工作负载管理系统。与其他全功能批处理系统一样,HTCondor提供了作业排队机制、调度策略、优先级方案、资源监控和资源管理。用户向HTCondor提交串行或并行作业,HTCondor将它们放入队列,根据策略选择何时何地运行作业,仔细监控作业进度,并最终在完成后通知用户。GitHub地址点此

2.为什么是HTCondor(优势)

HTCondor有一个单独的组件ec2_gahp提供对亚马逊云服务器的支持,此组件通过API调用来进行云服务器资源申请与分配。在作业提交时通过设置sub文件的提交项,并在配置文件设置ec2_gahp信息以及取得服务器运营商支持,即可进行计算资源紧张时的自动申请。

我们在此基础上进行阿里云接口组件的开发。

3.流程示意

第二部分:接口修改与测试

1.基本接口的对照

这七个接口是执行的最基本需要。其余还有竞价接口,弹性IP等可扩展内容。

2.签名机制

对于每一次HTTP或者HTTPS协议请求,会根据访问中的签名信息验证访问请求者身份。具体由使用AccessKeyID和AccessKeySecret对称加密验证实现。
阿里官方网站给出了很详细的说明,我在转化成C++过程遇到了一些困难,感谢导师帮助解决。

3.其他准备工作

阿里云测试准备
1.创建阿里云账号,并开通AccessKey。
2.创建网络安全组。
3.创建交换机。
4.充钱(余额低于100不提供按量申请的实例)。

计算节点配置准备
1.使用主节点打包的安装包到相同环境下创建计算节点,改好配置文件指向主节点,设置开机启动。
2.将建立的计算节点存为快照(软件环境),镜像(硬件环境)。

4.调用过程

使用condor_submit提交ec2任务后,会自动识别提交文件内各种参数,并且调用ec2_gahp组件。
调用过程如图:

1.调用ec2_status_all查询可用的虚拟机,如果可用,转入4,不可用,转入2。
2.调用create_keypair,创建密钥对并拿回本地,进行3。
3.利用得到的密钥对调用vm_start创建虚拟机,再次检查进行1。
4.提交任务,待任务完成后拿回本地并删除密钥对和申请的虚拟机。


猜你喜欢

转载自www.cnblogs.com/wxmwy/p/10426024.html