仅用2个月,告警减少65%,这家公司做对什么?

用户故事

刘总是浙江某公司信息部门负责人,在多年前就已经上线国内某知名网管运维软件产品。“那是一个失败的项目,我们的运维工程师每天都要遭受告警风暴的折磨,重要的告警被海量、无效告警淹没,你要知道公司处理每个告警都要付出很高时间成本的,不处理又会产生很大的风险成本”。

刘总询问工程师,能否再找一个运维平台试试。但工程师告知他,其他产品也都差不多,要像银行、运营商那样做到及时处理所有告警,除了增加一线人员外好像没有其它好办法。后来刘总看到了LinkSLA的案例推送,使用他们的管家式运维服务,业务系统故障从每年20次直降到了零,抱着免费试试看的心态,他安排工程师尝试订阅两个月。

“为什么选择LinkSLA?因为SaaS订阅制模式,如果达不到预期,我就不再续费,花钱也很少,对我没多大损失”,刘总有点儿得意,“但是使用效果却出乎意外的好,可以明确告诉你们,现在我们的无效告警减少了65%,MTTR减少了30%”。

在运维工作中,告警管理是很重要的一步,不仅可以大大提高运维工作效率,还能帮助企业形成最佳事件管理流程,让业务系统运行更加健康稳定;为了提高告警准确性,LinkSLA在告警规则方面做非常多的工作,例如,AI规则,告警聚合函数、多条件组合告警、告警依赖、基于规则的屏蔽,基于时间周期的规则屏蔽,基于子对象的屏蔽,当然要有重要一点是,moc工程师会进行告警的复核,去伪存真,调整规则,通知用户的肯定是真实有效的告警。

LinkSLA服务方案

一、AI机器学习,打造最强告警系统

随着企业业务系统越上越多,监控对象,指标更是海量增长。如按照传统的方法配置静态阈值,不仅耗用巨大的人力,而且容易造成告警信息不准确。机器学习把运维从繁琐的事件中解放出来,应用在异常告警、告警收敛、故障分析、趋势预测方面,更体现效率。但一个真正可以在海量实际场景中都做到很高准确率的AI算法可并不容易。LinkSLA是南京大学人工智能学院的孵化企业,早在4年前就和南京大学的专业团队合作,做出了一套具备实战价值的AI大模型,且创新性的采用了“大模型、小学件”的模式确保这套算法在各种各样的用户实际落地场景中具备很高的准确率。

1、 建立自适应异常检测

具有周期性、趋势性、季节性的指标,机器学习可建立自适应异常检测。例如,白天的CPU基线和晚上不同,1月份和6月份不同;除了单指标的异常监测,还可进行多维数据分析,例如某个业务系统响应时间超过正常范围,则会监测业务组成对象的关键指标,如CPU使用率、内存使用率、磁盘和网络IO、JVM使用率等等基于决策树分析模型,自动确认影响权重,进行多维数据分析。

2、 容量趋势预测

对用户资产的容量指标进行趋势预测,例如文件系统空间、数据库表空间等等,根据增长趋势提前预警,让用户有足够时间进行数据清理、扩容或迁移等等。

3、提供可视化统一界面

为运维人员提供可视化的统一界面,异常告警智能化,基于动态阈值的报警确认,对海量的时序指标进行异常检测,帮助运维人员迅速识别、预测可能出现的问题。基于AI机器学习算法,对问题根因进行分析,大大提高告警的准确性,提高运维效率。

二、平台+服务,有值守的运维平台

在技术上的创新极大的消除了误报,LinkSLA交付给最终客户的不仅仅是一套运维软件平台,而是以平台+工单告警值守服务的模式提供给客户一种“管家式”的运维监控服务。后台的7*24小时的值守工程师会主动帮助用户接收工单、协调处理工单,全程跟踪和督促,形成线上线下的闭环服务。

案例分享

节假日期间,值守工程师凌晨经常收到某客户的核心文件系统空间爆满的工单,根据SLA约定,要到早上上班时间才通知客户处理,但是9点工单检测发现问题已经被解决,工单就自动关闭了,一连几天皆是如此。

细心的MOC值守工程师调看历史数据,发现一个规律:每天凌晨1T的空间会被全部占满,到9点左右,又会释放400G的空间。MOC值守工程师查看了相关的磁盘容量、磁盘IO、应用进程等数据,分析出是用户在这个时间段进行了备份。联系客户得到确认后,进一步分析备份日志,发现由于空间不足经常导致备份失败,而客户以为最核心的业务系统数据已经有了备份保障。MOC工程师立刻沟通客户调整了备份方案,问题得到彻底解决。

运维三要素是“人员、工具、流程”,大部分客户往往只配备现场驻点或者响应人员,对于负责首先处理告警、工单的一线值班工程师,除了大银行、运营商等这种超大客户外,其他客户并未配置。这种状况导致的后果往往是“被动”“救火”式的处理,业务系统、数据、网络安全等发生灾难前的预警、隐患无法及时发现并消除。LinkSLA的这种“平台+值守服务”的模式可以真正地成为用户的“运维管家”,为用户实现“提前消除隐患”、“及时处理隐患或故障”的主动式服务。

三、解除误报,降低运维成本

在运维实践中,运维监控服务需要简单、高效、准确地告诉运维人员,哪里有隐患或故障需要去处理。LinkSLA智能运维管家从用户需求出发,首先利用经过实战检验的AI等技术创新做到了消除绝大部分“误报”的能力,再结合“告警及工单值守服务”为用户解决运维过程中最繁琐、最不好安排人力投入的困难,将运维转变为“主动”“流程清晰”的一种工作。

另外,值守服务并不仅仅只提供一线的告警和工单值班,还可以提供二线工程师及最资深的行业专家的线上支持,可以大幅度提升、加速用户分析问题、解决问题的能力。

图片

图片

   

猜你喜欢

转载自blog.csdn.net/LinkSLA/article/details/132451421
今日推荐