某三甲医院主动预防式运维实践报告

在IT转型驱动下,智慧医院建设已成为时代发展的必然趋势,在智慧医院建设中,运维管理扮演着重要角色,随着医院IT运维的管理目标、范围、对象及管理深度的改变,IT运维平台的建设正在向一体化、自动化、智能化、可视化等方向转变。

LinkSLA智能运维解决方案围绕业务需求,提供涵盖SLA闭环管理,IT基础架构全链路监控,自动化巡检,主动安全等功能,满足用户对IT服务管理、资源管理的运维管理方案。

01

现状&痛点

1、用户现状

目前医院机房放在电信云计算大数据中心。

资产详情:虚拟机140台,服务器21台  ,核心交换4台,汇聚交换8台,防火墙4台,存储3台 ,网闸2台。

2、痛点问题

  • 无专业的值守人员,不能及时发现告警并快速定位异常。

  • 人力巡检效率低,且间隔周期较长。

  • 无法做到对所有关键IT设备、系统软件、应用系统的集中实时监控。

  • 设备托管在运营商机房,设备状态不能实时查看。

  • 问题处理闭环过程很难量化考核,过程记录不全,运维绩效提升不明显。

02

主动预防式运维可行性分析

1、基础工具--全栈监控

能够对所有类型的数据中心IT资产的运行指标进行实时监控,这是主动预防式运维的基础能力

2、应用前提--精准告警

如果误报漏报较多,既增加了运维工程师的工作量,又很难要求每一个异常事件形成闭环

3、管理优化--固化流程

异常谁来处理,要求多长时间处理完成,处理结果能否验证,这是流程固化的三个基本要素

4、持续改进--数据呈现

通过数据呈现,发现系统稳定运行和运维绩效改进的关键点

核心目标

提前发现异常,在重大故障发生前及时排除异常,从而保障系统的不间断运行,这是主动预防式运维的核心目标。

03

主动预防式运维平台建设  

一、客户认同

在经历多轮的方案沟通,客户选择LinkSLA,最终认同的三个核心点在于:

1、机器学习算法能够大幅提高报警的准确性,使告警更贴合用户系统运行实际状况。

2、采用SaaS方式部署,用户侧基本零安装,基本没有维护成本和技术要求。

3、提供在线值守服务和专家远程服务,大大缓解用户运维人力资源和技术能力不足的困境。

       林科斯拉不仅提供工具,还实质性地参与用户主动式预防的运维过程。用户可以通过服务、工具的有效性和迭代升级决定是否续费,进一步降低进入成本和未来的沉默成本。

二、方案亮点

1、 7*24 在线值守

moc工程师实时在线监测平台告警信息,进行筛查和初步定位后生成工单通知用户工程师;工单处理闭环,既降低用户工程师的工作量,也过滤了无效告警和工单。

图片

▲7*24moc在线值守

2、全栈监控能力

能够实现设备、系统软件、应用软件、安全日志的统一监控。

图片

▲全栈监控

3、机器学习算法,实现精准告警。

区别于传统静态阈值的告警算法,机器学习算法进行历史数据的训练,发现的业务运行常态中的异常,大大提高告警的准确性,也提高值守工程师的工作效率。

图片

▲AI机器学习算法告警详情

4、丰富的大屏呈现提高了运维工作的可观测性

图片

▲运维视图,方便查看工单处理响应和完成的当前绩效

图片

▲网络拓扑,实时反馈节点设备状态,流量异常

图片

▲业务视图展示系统健康度,可查看业务系统整个IT链路(网络、数据库、中间件、存储等)的实时状况。

5、基于资产价值定义固化流程

图片

  • 基于资产价值和事件严重性定义工单级别

  • 不同级别的工单有固化的流转过程和规定的响应时间及完成事件

  • 林科斯拉值守工程师会追踪工单处理过程,并形成系统上的过程记录和必要的知识积累。

04

一年后,用户评价

1、2022年3月份上线至今,我院数据中心所有的IT资产全部纳入平台监控,目前为止尚未发生一次系统的非计划性停机故障。

图片

▲2023年3月1日的业务视图,应用系统处于非常健康状态

2、流程管理基本固化。上线1年时间,共产生290条有效工单,全部闭环处理完成,并在系统上形成了完整的过程记录,可追溯可审计。

图片

3、运维绩效逐步改善,上线一年,异常事件的响应执行率和处理执行率均在96%以上。

图片

▲异常响应执行率和处理执行率96%以上

3、能够在规定时间内查看告警并初步检查,在服务方和医院工程师的努力下,基本上所有的工单都能在规定时间内处理完成。

4、经过一年的监控和修复,目前的工单数量大幅下降,说明现在系统常态运行的风险基本修复完成了。

5、医院信息科运维人员无法做到24小时时刻关注系统报警,遇到系统报警不知如何处理,出现问题不能及时响应都会影响运维效果。林科斯拉在线值守工程师在出现故障报警后会进行筛选,出现高危异常第一时间通知客户,并提供技术支持,真正做到主动预防式运维,让医院的运维变得简单、高效、稳定、可靠。

图片

图片

▲扫码试用     

猜你喜欢

转载自blog.csdn.net/LinkSLA/article/details/131789258