在IT转型驱动下,智慧医院建设已成为时代发展的必然趋势,在智慧医院建设中,运维管理扮演着重要角色,随着医院IT运维的管理目标、范围、对象及管理深度的改变,IT运维平台的建设正在向一体化、自动化、智能化、可视化等方向转变。
LinkSLA智能运维解决方案围绕业务需求,提供涵盖SLA闭环管理,IT基础架构全链路监控,自动化巡检,主动安全等功能,满足用户对IT服务管理、资源管理的运维管理方案。
01
现状&痛点
1、用户现状
目前医院机房放在电信云计算大数据中心。
资产详情:虚拟机140台,服务器21台 ,核心交换4台,汇聚交换8台,防火墙4台,存储3台 ,网闸2台。
2、痛点问题
-
无专业的值守人员,不能及时发现告警并快速定位异常。
-
人力巡检效率低,且间隔周期较长。
-
无法做到对所有关键IT设备、系统软件、应用系统的集中实时监控。
-
设备托管在运营商机房,设备状态不能实时查看。
-
问题处理闭环过程很难量化考核,过程记录不全,运维绩效提升不明显。
02
主动预防式运维可行性分析
1、基础工具--全栈监控
能够对所有类型的数据中心IT资产的运行指标进行实时监控,这是主动预防式运维的基础能力
2、应用前提--精准告警
如果误报漏报较多,既增加了运维工程师的工作量,又很难要求每一个异常事件形成闭环
3、管理优化--固化流程
异常谁来处理,要求多长时间处理完成,处理结果能否验证,这是流程固化的三个基本要素
4、持续改进--数据呈现
通过数据呈现,发现系统稳定运行和运维绩效改进的关键点
核心目标
提前发现异常,在重大故障发生前及时排除异常,从而保障系统的不间断运行,这是主动预防式运维的核心目标。
03
主动预防式运维平台建设
一、客户认同
在经历多轮的方案沟通,客户选择LinkSLA,最终认同的三个核心点在于:
1、机器学习算法能够大幅提高报警的准确性,使告警更贴合用户系统运行实际状况。
2、采用SaaS方式部署,用户侧基本零安装,基本没有维护成本和技术要求。
3、提供在线值守服务和专家远程服务,大大缓解用户运维人力资源和技术能力不足的困境。
林科斯拉不仅提供工具,还实质性地参与用户主动式预防的运维过程。用户可以通过服务、工具的有效性和迭代升级决定是否续费,进一步降低进入成本和未来的沉默成本。
二、方案亮点
1、 7*24 在线值守
moc工程师实时在线监测平台告警信息,进行筛查和初步定位后生成工单通知用户工程师;工单处理闭环,既降低用户工程师的工作量,也过滤了无效告警和工单。
▲7*24moc在线值守
2、全栈监控能力
能够实现设备、系统软件、应用软件、安全日志的统一监控。
▲全栈监控
3、机器学习算法,实现精准告警。
区别于传统静态阈值的告警算法,机器学习算法进行历史数据的训练,发现的业务运行常态中的异常,大大提高告警的准确性,也提高值守工程师的工作效率。
▲AI机器学习算法告警详情
4、丰富的大屏呈现提高了运维工作的可观测性
▲运维视图,方便查看工单处理响应和完成的当前绩效
▲网络拓扑,实时反馈节点设备状态,流量异常
▲业务视图展示系统健康度,可查看业务系统整个IT链路(网络、数据库、中间件、存储等)的实时状况。
5、基于资产价值定义固化流程
-
基于资产价值和事件严重性定义工单级别
-
不同级别的工单有固化的流转过程和规定的响应时间及完成事件
-
林科斯拉值守工程师会追踪工单处理过程,并形成系统上的过程记录和必要的知识积累。
04
一年后,用户评价
1、2022年3月份上线至今,我院数据中心所有的IT资产全部纳入平台监控,目前为止尚未发生一次系统的非计划性停机故障。
▲2023年3月1日的业务视图,应用系统处于非常健康状态
2、流程管理基本固化。上线1年时间,共产生290条有效工单,全部闭环处理完成,并在系统上形成了完整的过程记录,可追溯可审计。
3、运维绩效逐步改善,上线一年,异常事件的响应执行率和处理执行率均在96%以上。
▲异常响应执行率和处理执行率96%以上
3、能够在规定时间内查看告警并初步检查,在服务方和医院工程师的努力下,基本上所有的工单都能在规定时间内处理完成。
4、经过一年的监控和修复,目前的工单数量大幅下降,说明现在系统常态运行的风险基本修复完成了。
5、医院信息科运维人员无法做到24小时时刻关注系统报警,遇到系统报警不知如何处理,出现问题不能及时响应都会影响运维效果。林科斯拉在线值守工程师在出现故障报警后会进行筛选,出现高危异常第一时间通知客户,并提供技术支持,真正做到主动预防式运维,让医院的运维变得简单、高效、稳定、可靠。
▲扫码试用