如何构建有效的IT运维管理

  • IT运维被动救火,技术人员饱受抱怨

    传统被动的、孤立的、分散的“救火队”式IT运维管理模式,让IT部门疲惫不堪。而且,随着公司业务模式的复杂化和多样化,更带来IT运营环境的复杂性和不确定性。在IT运维系统时,IT部门普遍面临多种新的复杂的情况和问题。主要有以下几个方面:

(1)运维人员被动救火,工作效率低下

    在IT运维管理过程中,IT员工工作太被动,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT服务人员终日忙碌,也使IT服务本身质量很难提高,导致IT和业务部门的满意度都不高等。

    其中比较典型的例如IT部门响应服务需求时没有相应的时间记录工具,或者因为各种原因导致工作人员不愿使用工具记录工作情况,这样不仅不利于处理过程的跟踪,更不利于知识的积累和知识库的完善。

(2)流程规范不足,没有形成闭环跟踪

    在运维流程方面,很多企业IT部门还一直处于原始的基础状态。例如在事件处理流程上,存在以下几种典型的问题:

  1. 没有明确的事件升极标准,例如满足怎样的条件后,事件必须从一线转到二线支持工程师,再转到三线研发工程师处理。    
  2. 没有事件的有限级定义标准,没有建立优先级和解决时限的关联关系,从而不能保证事件解决的实效性和IT资源的有效利用。
  3. 事件产生后没有明确而唯一的责任人,从而缺乏对事件有效的监控和跟踪机制
  4. 没有对事件统一的IT服务管理受理的界面,没有事件完整记录、没有及时反馈。

    这些都使事件、服务请求处理过程中没有形成严格的闭环管理;没有建立明确的重大或紧急事件处理流程,从而不能保证在相应事件发生后有效及时地处理。对事件处理过程的记录比较分散,随意性很大,没有控制。更没有严格规范的流程政策和控制手段,使之存在太多的漏洞。整体运行维护情况不能够一目了然,无法清楚地知识各位员工的工作情况和工作状态,从而缺少对流程有效的监控和跟踪。

(3)缺乏运维技术工具

    企业缺乏诸如事件监控和诊断工具等技术工具,事件不能在技术工具的支持下得到主动、快速处理。事件和工作任务在分派过程中没有相应的技术工具记录所有历史信息,不便于跟踪和分析;配置管理信息没有相关工具支持,不能为配置元素建立复杂的关系、状态等属性和提供相应查询功能。

    总的来说,目前诸多企业在IT系统运维方面并没有高度重视,前期规划仅为解决短期IT建设问题。但随着企业规模的不断扩大,IT系统涉及的设备种类越来越多,对全系统的运营和维护管理提出了近乎苛刻的要求,而相对的则是IT运维的原始和落后的现状。

  • 建立IT运维管理制度,关键在于规范

    我们可以看出,在企业信息化发展到一定阶段,IT系统建设重点应该要从系统实施转向以应用运维提升为主,运维质量保障、安全机制变得重要起来,这时除了技术的保障以外,制度保障越显得重要。

    

    作为CIO,建立完善的IT运维管理制度是最主要的工作内容,是企业信息化有效执行和监督的立足点。由此,CIO应首先是一位管理专家,其次才是技术专家。IT部门本身管理不好,就不可能为业务部门提供满意的IT服务,业务部门对IT部门的满意度就会低,满意度低又会影响IT投资及新项目的开展,使IT部门陷入困境。所以建立高效规范的IT运维管理机制,是CIO走向战略管理的第一步。对于IT部门来说,可从以下几个方面来进行IT运维制度化:

    (1)转变运维观念,树立规范化意识。树立制度化的IT运维意识,才能在日常繁杂琐碎的工作中有效区分任务的优先级,将有限的资源投入到最能满足“客户”需要的工作中。

    (2)建立事件处理流程,强化规范执行力度。首先需要建立故障和事件处理流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辩识和发展问题的线索和根源。建立每种事件的规范化处理指南,减少运维操作的随意性,最大程度上降低故障发生的概率。

    (3)设立ITIL(信息技术基础设施库)服务台,引入优先处理原则。设立服务指南要求企业定义服务台的关键流程,不仅仅定义流程是什么,还包括它们是如何运作的,还要指出每个流程对企业有什么影响和意义。应用ITIL中的IT服务台及服务级别协议思想,保证例行的事有相关责任人进行处理;有了服务级别协议,制定事件处理优先级次序,就可把事件再细分为例行事件和例外事件。

    (4)最后要引入SLA管理。SLA(Service Level Agreement即服务水平协议),IT部门应该自发给自己负责管理的系统或者客户建立一个能够量化的运维目标,这样不仅能够务实地提高服务质量和管理水平,也能够在目标达成后作为团队工作改进的成绩得到肯定,提高IT人员的工作成就感。

  • 参照ITIL建立成功运维管理体系的三要素

    从IT运维的现状和发展趋势来看,ITIL已经成为推进IT运维体系建设和日常操作管理的首要标准和“最佳实践”参照。ITIL是起源于英国政府自身IT管理需求开发的标准。对照ITIL的九层评估模型,可以发现许多企业目前在人员、流程、技术等三个方面存在很多问题。也就是说,在进行IT运维管理时,要在这三个方面齐头并进才能从总体上提升IT运维服务管理。

    (1)人员组织:在IT运维中人员因素应该是首要考虑因素。因为ITIL的应用实际上是一个管理活动,特别依靠人的积极参与来完成。在管理过程中,可能涉及到人员的职能、利益、思维模式、工作方式等的转换,产生的误解、消极和阻力不容忽视。因此,除了在制度安排、企业文化方面的工作以外,更要积极采取多方面措施诱导和疏通,包括服务意识培训、ITIL运维技能培养、发展规划和激励等方式。

    (2)管理流程:运维流程设计是ITIL实施核心之一,它必须结合现状,既不是现有管理流程的直接转述和电子化,也不是完全依照最佳实践的照搬拷贝。

  1. 流程是分阶段的目标定义、设计、固化、评价和改进过程
  2. ITIL作为IT部门内部管理的流程,存在和外部流程的接口整合衔接的问题,需要在运维流程设计和流程自动化处理等环节中妥善解决。另外,还应该充分了解:运维流程既有需要严格执行的僵化一面,也有面向效果灵活变通的一面。
  3. 技术工具:管理工具是指在IT运维管理过程中能够借助的用来提高服务质量和效率的所有工具的总称。对于企业来说,要特别关注两类工具:一、运维监控和诊断优化工具;二、流程自动化工具。这里需要提醒的地方是,许多企业特别重视IT运维工具本身,而常常忽视了ITIL所倡导的通过流程等制度约束和引导,才能更好地发挥效益。因此,即使没有引入ITIL运维流程以及电子化平台,也应该建立并利用一些必要的运维纸质流程和制度,否则难以得到很好的应用。

总之,CIO想在IT系统运维过程获得最佳的效果,不是单纯通过项目建设能够达到的,高效IT运维系统是需要一个持续改进、不断优化的长期过程,IT运维管理制度化也必不可少。

    传统被动的、孤立的、分散的“救火队”式IT运维管理模式,让IT部门疲惫不堪。而且,随着公司业务模式的复杂化和多样化,更带来IT运营环境的复杂性和不确定性。在IT运维系统时,IT部门普遍面临多种新的复杂的情况和问题。主要有以下几个方面:

(1)运维人员被动救火,工作效率低下

    在IT运维管理过程中,IT员工工作太被动,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT服务人员终日忙碌,也使IT服务本身质量很难提高,导致IT和业务部门的满意度都不高等。

    其中比较典型的例如IT部门响应服务需求时没有相应的时间记录工具,或者因为各种原因导致工作人员不愿使用工具记录工作情况,这样不仅不利于处理过程的跟踪,更不利于知识的积累和知识库的完善。

(2)流程规范不足,没有形成闭环跟踪

    在运维流程方面,很多企业IT部门还一直处于原始的基础状态。例如在事件处理流程上,存在以下几种典型的问题:

  1. 没有明确的事件升极标准,例如满足怎样的条件后,事件必须从一线转到二线支持工程师,再转到三线研发工程师处理。    
  2. 没有事件的有限级定义标准,没有建立优先级和解决时限的关联关系,从而不能保证事件解决的实效性和IT资源的有效利用。
  3. 事件产生后没有明确而唯一的责任人,从而缺乏对事件有效的监控和跟踪机制
  4. 没有对事件统一的IT服务管理受理的界面,没有事件完整记录、没有及时反馈。

    这些都使事件、服务请求处理过程中没有形成严格的闭环管理;没有建立明确的重大或紧急事件处理流程,从而不能保证在相应事件发生后有效及时地处理。对事件处理过程的记录比较分散,随意性很大,没有控制。更没有严格规范的流程政策和控制手段,使之存在太多的漏洞。整体运行维护情况不能够一目了然,无法清楚地知识各位员工的工作情况和工作状态,从而缺少对流程有效的监控和跟踪。

(3)缺乏运维技术工具

    企业缺乏诸如事件监控和诊断工具等技术工具,事件不能在技术工具的支持下得到主动、快速处理。事件和工作任务在分派过程中没有相应的技术工具记录所有历史信息,不便于跟踪和分析;配置管理信息没有相关工具支持,不能为配置元素建立复杂的关系、状态等属性和提供相应查询功能。

    总的来说,目前诸多企业在IT系统运维方面并没有高度重视,前期规划仅为解决短期IT建设问题。但随着企业规模的不断扩大,IT系统涉及的设备种类越来越多,对全系统的运营和维护管理提出了近乎苛刻的要求,而相对的则是IT运维的原始和落后的现状。

  • 建立IT运维管理制度,关键在于规范

    我们可以看出,在企业信息化发展到一定阶段,IT系统建设重点应该要从系统实施转向以应用运维提升为主,运维质量保障、安全机制变得重要起来,这时除了技术的保障以外,制度保障越显得重要。

    

    作为CIO,建立完善的IT运维管理制度是最主要的工作内容,是企业信息化有效执行和监督的立足点。由此,CIO应首先是一位管理专家,其次才是技术专家。IT部门本身管理不好,就不可能为业务部门提供满意的IT服务,业务部门对IT部门的满意度就会低,满意度低又会影响IT投资及新项目的开展,使IT部门陷入困境。所以建立高效规范的IT运维管理机制,是CIO走向战略管理的第一步。对于IT部门来说,可从以下几个方面来进行IT运维制度化:

    (1)转变运维观念,树立规范化意识。树立制度化的IT运维意识,才能在日常繁杂琐碎的工作中有效区分任务的优先级,将有限的资源投入到最能满足“客户”需要的工作中。

    (2)建立事件处理流程,强化规范执行力度。首先需要建立故障和事件处理流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辩识和发展问题的线索和根源。建立每种事件的规范化处理指南,减少运维操作的随意性,最大程度上降低故障发生的概率。

    (3)设立ITIL(信息技术基础设施库)服务台,引入优先处理原则。设立服务指南要求企业定义服务台的关键流程,不仅仅定义流程是什么,还包括它们是如何运作的,还要指出每个流程对企业有什么影响和意义。应用ITIL中的IT服务台及服务级别协议思想,保证例行的事有相关责任人进行处理;有了服务级别协议,制定事件处理优先级次序,就可把事件再细分为例行事件和例外事件。

    (4)最后要引入SLA管理。SLA(Service Level Agreement即服务水平协议),IT部门应该自发给自己负责管理的系统或者客户建立一个能够量化的运维目标,这样不仅能够务实地提高服务质量和管理水平,也能够在目标达成后作为团队工作改进的成绩得到肯定,提高IT人员的工作成就感。

  • 参照ITIL建立成功运维管理体系的三要素

    从IT运维的现状和发展趋势来看,ITIL已经成为推进IT运维体系建设和日常操作管理的首要标准和“最佳实践”参照。ITIL是起源于英国政府自身IT管理需求开发的标准。对照ITIL的九层评估模型,可以发现许多企业目前在人员、流程、技术等三个方面存在很多问题。也就是说,在进行IT运维管理时,要在这三个方面齐头并进才能从总体上提升IT运维服务管理。

    (1)人员组织:在IT运维中人员因素应该是首要考虑因素。因为ITIL的应用实际上是一个管理活动,特别依靠人的积极参与来完成。在管理过程中,可能涉及到人员的职能、利益、思维模式、工作方式等的转换,产生的误解、消极和阻力不容忽视。因此,除了在制度安排、企业文化方面的工作以外,更要积极采取多方面措施诱导和疏通,包括服务意识培训、ITIL运维技能培养、发展规划和激励等方式。

    (2)管理流程:运维流程设计是ITIL实施核心之一,它必须结合现状,既不是现有管理流程的直接转述和电子化,也不是完全依照最佳实践的照搬拷贝。

  1. 流程是分阶段的目标定义、设计、固化、评价和改进过程
  2. ITIL作为IT部门内部管理的流程,存在和外部流程的接口整合衔接的问题,需要在运维流程设计和流程自动化处理等环节中妥善解决。另外,还应该充分了解:运维流程既有需要严格执行的僵化一面,也有面向效果灵活变通的一面。
  3. 技术工具:管理工具是指在IT运维管理过程中能够借助的用来提高服务质量和效率的所有工具的总称。对于企业来说,要特别关注两类工具:一、运维监控和诊断优化工具;二、流程自动化工具。这里需要提醒的地方是,许多企业特别重视IT运维工具本身,而常常忽视了ITIL所倡导的通过流程等制度约束和引导,才能更好地发挥效益。因此,即使没有引入ITIL运维流程以及电子化平台,也应该建立并利用一些必要的运维纸质流程和制度,否则难以得到很好的应用。

总之,CIO想在IT系统运维过程获得最佳的效果,不是单纯通过项目建设能够达到的,高效IT运维系统是需要一个持续改进、不断优化的长期过程,IT运维管理制度化也必不可少。

猜你喜欢

转载自mukeliang.iteye.com/blog/1868255