【干货】运维,你是青铜还是王者?

传统的观点中、运维就是保障业务运行得稳定、高效、安全,但时至今日,这个运维的价值观恐怕早已过时了,我们希望运维能够成为公司的核心竞争力之一。

这就促使了运维向技术运营的转变,技术运营的能力建设以业务为中心,交付稳定、安全、高效的技术运营服务,从而有力支撑企业的持续发展和战略成功。技术运营不仅关注“稳定”、“安全”、“可靠”,更要关注“体验”、“效率”、“效益”。

一、我们从七个维度提出问题,探究你的技术运营转型之路处在什么水平,是青铜还是王者?

监控管理:仅仅是有基础的监控能力,还是已经实现高度智能化?

事件与变更管理:仅仅是有基本的事件规范和变更操作要求和处理风险能力,还是已经实现智能化支撑,具备无人化、自愈和自改进能力?

配置管理:仅仅是依靠人工保障配置记录的管理,还是已经实现智能化配置管理,支持场景智能生成配置对象的关联规则和提供准确的决策依据?

容量与成本管理:仅仅是具备基础预算、基础设施容量监控与业务的指标汇聚能力,还是已经实现智能化管理容量与成本?

高可用管理:仅仅是支持流量切换,硬件故障能及时回复,数据库备份可靠,还是已经实现全面自动化和智能化的高可用管理,并持续改进?

业务连续性管理:仅仅是具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长,还是已经实现整体 RTO(恢复时间目标) 达到99.995%,引入更多智能化技术,3分钟内完成问题解决?

用户体验管理:仅仅是具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力,还是已经引用AI技术,建立业务领域级别的用户体验类知识图谱或专家系统?

二、技术运营能力建设的5个段位,每上一个台阶都是质的飞跃。

青铜段位

  1. 有基础的监控,能满足对系统级(CPU等)的监控需求。

  2. 具有基本的事件规范和变更操作要求,可及时处理事件和管控部分变更风险。

  3. 依靠人工保障配置记录的管理。

  4. 具备基础预算、基础设施容量监控与业务的指标汇聚能力。

  5. 支持流量切换,硬件故障能及时回复,数据库备份可靠。

  6. 具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长。

  7. 具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力。

白银段位

  1. 有基础的监控,能满足对系统级(CPU等)的监控需求。

  2. 具有基本的事件规范和变更操作要求,可及时处理事件和管控部分变更风险。

  3. 依靠人工保障配置记录的管理。

  4. 具备基础预算、基础设施容量监控与业务的指标汇聚能力。

  5. 支持流量切换,硬件故障能及时回复,数据库备份可靠。

  6. 具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长。

  7. 具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力。

黄金段位

  1. 具有面向应用场景的告警与可视化平台,可实现常见故障自愈。

  2. 完善的事件与变更管理流程,与其他技术运营流程打通,具有平台化与可视化能力。

  3. 自动化配置管理平台,支持自动发现、灵活扩展和关联分析。

  4. 具备业务容量与基础设施容量关联分析能力、柔性服务能力,灵活成本管控的能力。

  5. 自动化动态扩容,采用分布式缓存、分表分库、跨库事务等技术,同城多机房实时数据备份,异地数据备份。

  6. 整体RTO达到99.95%,主动模拟注入故障并快速定位和解决,2分钟响应,5分钟定位并启动预案,10分钟完成问题解决。

  7. 具有自动跟踪及用户改善工具,5分钟内发现质量数据异常。

钻石段位

  1. 监控管理实现阈值动态调整等初步智能化,全网数据秒级上报,可实现自动化决策。

  2. 深度规范化,部分场景借助智能化技术实现管理与质量的降本增效。

  3. 智能识别配置对象的关联关系,配置信息能为技术运营活动提供决策支持。

  4. 支持全链路的容量管理能力,为技术和架构提供支持。

  5. 结合监控自动扩容缩容,系统拓扑结构自动梳理。

  6. 整体RTO达到99.99%,应急和危机处理组织结构完备,对故障基本能通过告警主动发现,1分钟响应,3分钟定位并启动预案,5分钟完成问题解决。

  7. 界定区分用户群体及单用户行为轨迹的完整链条的体验表现,触达运营指标,如回流用户转化率等。

王者段位

  1. 智能决策、推荐等高度智能化。

  2. 实现大部分场景的智能化支撑,具备无人化、自愈和自改进能力。

  3. 智能化配置管理,支持场景智能生成配置对象的关联规则和提供准确的决策依据。

  4. 智能化管理容量与成本。

  5. 实现全面自动化和智能化的高可用管理,并持续改进。

  6. 整体RTO达到99.995%,引入更多智能化技术,3分钟内完成问题解决。

  7. 引用AI技术,建立业务领域级别的用户体验类知识图谱或专家系统。

猜你喜欢

转载自blog.csdn.net/XMWS_IT/article/details/109803073