金融系统IT运维监控的探索与实践

一、背景介绍

金融行业作为国内信息化发展最早、最成熟的行业之一,在数字化应用不断深入的情况下,传统运维面对微服务、容器、虚拟化等显得愈加力不从心,金融行业要建立与全新架构能力相匹配的运维体系,提升业务运营感知能力、基础架构运维掌控能力和敏捷业务支撑能力保障业务连续性和安全稳定运行。这种新的需求指向可观测性、数据分析处理和告警收敛准确度提升等方面。

二、现状阐述

1、在众多应用中逐渐失去平衡

由传统集中式架构向分布式架构转型,容器、微服务等云原生技术的底层架构云化升级,架构转型演进的过程带来的是IT单元部署数量的显著增多。过去,运维管理的IT设备和数据的比例是1:100,未来,这一比例正快速变成1:100n,运维人员面对的IT设备和数据规模呈几何级增长。

不仅如此,微服务化以及分布式的依赖关系导致服务调用错综复杂,容器下的环境动态性增强,这让运维排障变得更难。全新架构、系统众多、可见性更差,传统运维依赖人的技能和经验大打折扣,运维效率在“快”与“稳”中失去平衡。

2、在告警风暴中迷失

在云环境和混合异构环境之下,IT运维的复杂度在不断上升。金融业务系统本来就比较庞杂,前中后台的业务系统叠加不同的技术路线、不同的产品,包括开源、开源的二次开发、商业化产品的混合使用,让底层的IT基础设施也各有差异。IT运维在跨系统的环境中反复横跳,运维难度不断攀升,即使一个饱有经验的运维管理人员发现故障后,也要耗费大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种依赖人力的运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。

不得不说,运维人员每天处理告警事件,时刻忙于“救火”的状态,其实非常被动。真正有效的工作应该是防患于未然,才能保障稳定、高效的业务运行。

3、缺乏数据分析处理能力

数据即资产。后台产生的数据通过有效分析,为运营决策的支撑。来自软硬件、应用系统、平台工具系统等产生的数据,包括监控指标数据、报警数据、日志数据、网络数据、链路关系数据、运维知识数据、CMDB、运维流程等多类数据。数据的有效分析可以实现运行感知、业务感知等涉及的IT风险控制,性能管理、终端感知等涉及的客户体验分析,运营效能、服务质量,是业务的宝贵资产。

三、服务方案

结合用户现状及需求,在保障系统稳定运行的前提下,提高运维各个环节的运行质量。

1、数据分析

通过AI机器学习算法,对监控对象及应用指标产生的数据,进行计算、分析、告警。通过趋势性的数据分析展示,提供业务所需的资源、容量需求等,避免资产盲目扩张造成的资源浪费,有效控制成本。

对具有周期性、趋势性、季节性的海量时序指标数据进行异常检测,极大提高了运维效率和告警准确性。监控指标异常检测,例如CPU、内存、业务系统黄金指标,延时、并发量、错误等监控指标;应用指标异常检测例如应用的活跃用户数、访问页面数、响应时间等业务指标。

2、可视化交互

将运维对象及关联关系、运维流程、运维活动、运维管理信息转换成数字化的图形或图像进行展示,部署多样化展示大屏,支持全链路监控功能,提供监控指标对象的dashbord直观呈现,提供业务系统的应用拓扑关系,提高根因排查与故障定位效率。

3、告警收敛合并

各种监控工具会产生海量告警信息,可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低运维工作的效率。

告警收敛合并可针对短时、大量的、甚至是持续的冗余告警,通过文本相似度、链路相关性、时间相关性判断,对冗余告警进行合并降噪,为运维人员提供有效的告警信息,大大提高运维效率。

四、用户收益

 1、成本

提高资产、应用的利用率,稳定性能,降低软件、硬件资源投入。提供7*24时moc在线服务,降低运维人员压力和故障恢复成本。

2、质量

IT运维能够有效地保障业务系统稳定、持续,统一集中的全链路监控,可视化交互让过程可见、可控,提高各个运行环节的质量。提高故障定位及修复效率,实时巡检,多指标衡量,准确度和覆盖面大幅提升。

3、效益

变传统被动应答的故障处理方式为可观测的管理方式,便于快速发现、定位问题,节约用户告警处理的时间成本及专家技术成本,提供专业高效解决方案。

猜你喜欢

转载自blog.csdn.net/LinkSLA/article/details/130105933