数据中心运维管理的根本建议!

  数据中心运维管理过程是数据中心全生命周期中最后一个阶段,也是历时最长的一个阶段,数据中心运维管理也是依托于已交付的数据中心基础设施之上。通过有效的管理,最终使数据中心得以实现服务与经济上的目标,实现运维管理的持续性、时效性、标准性、安全性和可用性5大目标。
  然后,我们要明确运维团队的工作职责与需要掌握的技能。
  由于数据中心的持续性特性,需要由724小时运维人员进行技术支持运维服务,运维团队主要职责是持续保障数据中心运行相关的基础设施系统设备稳定连续运行,并掌握数据中心各类设备的工作原理、操作方法、初步故障排查诊断的技能。
  因此,组建一支高综合水平的运维团队是做好数据中心运维管理工作的根本,运维团队的建设就会变成运维管理工作中非常重要的一项工作内容。
  下面我们重点讲述运维团队的建设:
  一、运维措施
  1.人
  数据中心高精度设备、复杂的系统对运维人员技术提出了新的要求,需要人员必须掌握专业所需的技能,周期性对运维人员的日常工作规范化运维操作、应急响应、故障排查进行开展技术培训和演练,通过演练总结经验,完善、运维指标、运维技术标准、应急流程,提高团队综合应急响应能力。
  2.体系
  根据ISO9000质量管理体系标准,建立设施运行、系统巡查、数据采集、指标测试标准化等标准化记录表单、完善设备运行管理、使运维质量管理制度化、体系化,提高运维品质,定期对运行管理制度进行经验总结,修正归档、统一发布的流程标准管理方法。
  运维体系是运维的基石,根据ISO2000 IT服务管理体系建立数据中心ITSM(IT Service Management)IT服务管理流程,对各设备、系统操作流程、应急响应流程进行设计、建设,通过对运维体系的建设、提高IT运维服务质量,降低设施事件发生的频率和影响,对运维成员流程文件输入、输出的理论培训、实操培训,使流程不“固化”,流程更清晰、责任分工更明确,考核量化,文档规范化等。
  3.制度
  依据运维体系和指标对运维人员的工作行为和取到的工作成绩进行评估,并运用评估结果为运维人员后续的工作和工作成绩进行正面的引导。重点对人员的指标完成度、创新性进行观察、挖掘引导潜在的运维潜力。在运维工作方面主要体现在运维保障上,确保服务的可用性、安全性和服务体系流程的标准化实施。通过周度、月度报表内维护量、故障量等数据进行工作量、工作效率进行评估。
  4.预警
  数据中心监控系统是现代信息化数据中心运行监控指挥控制中心平台,通过数据采集、数据处理、数据存储、数据展示、数据预警的方式进行对现场环境设备、网络、温湿度、电量、开关、设备运行状态、压力、能源信息进行集中化实施展示分析。根据容量计算算法对机柜配电容量、冷却容量、装机量进行预警、评估、扩容优化。通过平台数据接口二次开发将预警数据进行实施传输到运维人员工作通讯群等平台,实现了运行数据信息共享化、预警信息实时化。让沟通简单化、避免“信息孤岛”等低效率现象,降低沟通成本、提高沟通效率的成果。
  5.测试
  数据中心系统测试是运维工作中至关重要的环节。系统测试验证是测试数据中心系统设计、安装、功能、调试是否与设计意图相符合的一个重要过程,是设施获得良好功能和可靠性运行过程中的重要组成部分,一个好的测试验证不应仅满足“测试”相关的设备功能指标,更重要的是“验证”系统是否可以满足运行阶段的要求。
  运维人员也应利用测试验证的过程熟悉在管理设备的状态和运行指标,验证设备操作标准流程的可操作性,提高实际过程中操作和应对突发事件的运维经验。
  二、运维计划
  通过运维“三控、三管、一协调”措施对运维工作的运维成本、运维品质、运维效率进行目标控制,对运维安全、代维服务商、信息进行管理,对运维各技术小组运维工作的协作协调。*

猜你喜欢

转载自blog.51cto.com/13965328/2322679