一、背景介绍

金融行业作为国内信息化发展最早、最成熟的行业之一，在数字化应用不断深入的情况下，传统运维面对微服务、容器、虚拟化等显得愈加力不从心，金融行业要建立与全新架构能力相匹配的运维体系，提升业务运营感知能力、基础架构运维掌控能力和敏捷业务支撑能力，保障业务连续性和安全稳定运行。这种新的需求指向可观测性、数据分析处理和告警收敛准确度提升等方面。

二、现状阐述

1、在众多应用中逐渐失去平衡

由传统集中式架构向分布式架构转型，容器、微服务等云原生技术的底层架构云化升级，架构转型演进的过程带来的是IT单元部署数量的显著增多。过去，运维管理的IT设备和数据的比例是1:100，未来，这一比例正快速变成1:100n，运维人员面对的IT设备和数据规模呈几何级增长。

不仅如此，微服务化以及分布式的依赖关系导致服务调用错综复杂，容器下的环境动态性增强，这让运维排障变得更难。全新架构、系统众多、可见性更差，传统运维依赖人的技能和经验大打折扣，运维效率在“快”与“稳”中失去平衡。

2、在告警风暴中迷失

在云环境和混合异构环境之下，IT运维的复杂度在不断上升。金融业务系统本来就比较庞杂，前中后台的业务系统叠加不同的技术路线、不同的产品，包括开源、开源的二次开发、商业化产品的混合使用，让底层的IT基础设施也各有差异。IT运维在跨系统的环境中反复横跳，运维难度不断攀升，即使一个饱有经验的运维管理人员发现故障后，也要耗费大量时间检查每一个系统，进行例如状态数据分析、抓包分析才能定位故障。这种依赖人力的运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。

不得不说，运维人员每天处理告警事件，时刻忙于“救火”的状态，其实非常被动。真正有效的工作应该是防患于未然，才能保障稳定、高效的业务运行。

3、缺乏数据分析处理能力

数据即资产。后台产生的数据通过有效分析，为运营决策的支撑。来自软硬件、应用系统、平台工具系统等产生的数据，包括监控指标数据、报警数据、日志数据、网络数据、链路关系数据、运维知识数据、CMDB、运维流程等多类数据。数据的有效分析可以实现运行感知、业务感知等涉及的IT风险控制，性能管理、终端感知等涉及的客户体验分析，运营效能、服务质量，是业务的宝贵资产。

三、服务方案

结合用户现状及需求，在保障系统稳定运行的前提下，提高运维各个环节的运行质量。

1、数据分析

通过AI机器学习算法，对监控对象及应用指标产生的数据，进行计算、分析、告警。通过趋势性的数据分析展示，提供业务所需的资源、容量需求等，避免资产盲目扩张造成的资源浪费，有效控制成本。

对具有周期性、趋势性、季节性的海量时序指标数据进行异常检测，极大提高了运维效率和告警准确性。监控指标异常检测，例如CPU、内存、业务系统黄金指标，延时、并发量、错误等监控指标；应用指标异常检测例如应用的活跃用户数、访问页面数、响应时间等业务指标。

2、可视化交互

将运维对象及关联关系、运维流程、运维活动、运维管理信息转换成数字化的图形或图像进行展示，部署多样化展示大屏，支持全链路监控功能，提供监控指标对象的dashbord直观呈现，提供业务系统的应用拓扑关系，提高根因排查与故障定位效率。

3、告警收敛合并

各种监控工具会产生海量告警信息，可能存在大量的冗余告警甚至形成告警风暴，对运维人员产生极大干扰，降低运维工作的效率。

告警收敛合并可针对短时、大量的、甚至是持续的冗余告警，通过文本相似度、链路相关性、时间相关性判断，对冗余告警进行合并降噪，为运维人员提供有效的告警信息，大大提高运维效率。

四、用户收益

1、成本

提高资产、应用的利用率，稳定性能，降低软件、硬件资源投入。提供7*24时moc在线服务，降低运维人员压力和故障恢复成本。

2、质量

IT运维能够有效地保障业务系统稳定、持续，统一集中的全链路监控，可视化交互让过程可见、可控，提高各个运行环节的质量。提高故障定位及修复效率，实时巡检，多指标衡量，准确度和覆盖面大幅提升。

3、效益

变传统被动应答的故障处理方式为可观测的管理方式，便于快速发现、定位问题，节约用户告警处理的时间成本及专家技术成本，提供专业高效解决方案。

金融系统IT运维监控的探索与实践