老杨说运维 | 数智时代,运维一体化如何落地实践?

在IT运维的发展过程中,随着分布式架构的加速推进,云原生技术加入应用,运维工具相比过去呈现出了更高强度的进化态势,即从多个相对独立的软件向EA形态的一体化系统进化。本次樱花论坛正是基于这一新的变革点,邀请了行业内的各路大咖,全面深入的探讨了分布式架构和云原生时代的运维平台发展之道。擎创科技创始人兼CEO杨辰,带来了《一体化数智运维平台的规划思路和建设实践》分享。

一、AIOps建设中存在的问题

擎创科技经过百余个项目的实践,发现很多企业在AIOps的建设中存在一些过于理想化的误区,这些误区随着项目的逐步落地不断带来现实的打击,最终导致了很多企业对于AIOps的价值产生了怀疑。具体表现在以下几个方面

  • 在建设初期,很多企业认为AIOps是银弹可以洞穿一切难题,希望它能够为企业解决所有问题

  • 没有做到自顶而下的统筹规划,在建设过程中把它独立,未与现有工具进行联合

  • 希望快速看到成效而选择速成建设,本应是多期规划的建设只选择一期完成,导致因为预期评估的方法不够合理得当,最终交付质量无法达到全局目标,不能满足场景效果,渐渐地认为AIOps无法为企业来带实际

对此,老杨认为AIOps的建设不应一蹴而就。

首先,在初期要重视数据底座的建设,通过合理的方法(如依据行业认可的数据治理成熟度标准)进行企业现状评估。

其次,从业务视角出发,由业务战略逐层拆解需求,以用促建、治用并举的进行一体化规划。

最后,优先关注工具、跨领域场景等之间的关联性,保留专业领域的垂直分析工具,进行以场景为驱动的敏捷建设。

通过这三方面的结合,完成AIOps全局规划及建设,才能使得AIOps为企业带来真正的业务价值。

二、如何搭建AIOps平台

智能运维平台经历了多个发展阶段,到今天演化出来的主流建设趋势大致有三种:统一运维平台Observability、统一风险管控平台RiskOps、统一成本评估平台FinOps。

1.统一运维监控平台

即以统一数据建设为底座,进行“眼耳”能力建设的统一监控平台。

  • 数据建设

由底层数据基础建设为起点,对多维多角度的各类运维数据实现应接尽接,在当下云原生时代应优先对接业务和云上数据,以监控对象为核心进行统一建模。

  • 智能化和利旧

将算法融合业务输入,力求数据的实用准确,对重要业务系统及相关资源优先覆盖,同时替代功能重叠性强的平台,并保留垂直领域的专业工具,实现智能化平台的完整建设。

  • 做好定位和场景设计

保证以业务视角为顶层设计,优先建设跨领域的场景关联,及云上云下的可观测一体化监控,减少云原生运维的复杂性,实现1、5、10(即1分钟发现问题、5分钟定位问题、10分钟解决问题)的快速定障排障能力,为业务运营提供最大化保障。

2.统一风险管控平台

作为提升二道防线生产运营风险管控能力的环节,该平台要求建设结果能够达到事前风险预警、事中风险等位、事后风险总结改进的能力。

建设规划围绕基础面和风险盘两大块,构建风险防控评分体系,通过分级权重提升健康评分准度。

  • 基础面

围绕业务类、技术类指标以及特殊项扣分规则构建单系统基础盘。

  • 风险盘

在基础面得分的基础上根据告警、事件、问题、业务指标同环比的权重设置。做为单系统附加扣分项,进一步识别风险。

3.统一成本评估平台

即能够帮助企业有效合理分配资源,实现健壮的成本管理以及健康的运行效率的运维平台。

据Flexera《2022年云状态报告》指出,企业在每100万元云设施相关的花费中,有约32万元是被浪费掉的。当下很多企业处于多云的状态,由于云与云之间的基架模式不同,所以当多个BU申请资源的时候,得到的结果不见得是最优化的。

统一成本评估平台能够纳管多种管理平台的IT资源数据,如云网管理平台、网络管理平台、配置管理平台、自动化平台、运维数据中台等,能够帮助企业实现不同团队之间能够迅速地在速度、成本和质量之间进行业务权衡,确保不会出现业务交易量大但资源配比低或业务交易量小但资源配比高的情况。

三、一体化数智运维平台如何建设?

就像家具越过越多一样,IT运维工具的形式、数量随着数字化转型的不断革新也变得越来越繁多。从最初因点状需求匹配而产生的单一工具到由场景化需求升级的工具组合+可视化再到现今为破除数据竖井而衍生的运维数据平台,企业对智能运维的要求越发严谨,亟需一种全新的方式来使得各类工具形成整体价值。

所以老杨表示,未来一定是一体化的数智运维平台,它是基于各类运营运维的软件工具、场景,通过DataFabric对多样化的数据进行编织后统一完成纳管,再将数据价值通过可视化的方式体现出来,为运营决策提供帮助。

擎创自研的数智运维管理解决方案如下:

四、谈谈云原生运维和GPT-Ops

1.云原生运维

会更智能,随着分布式架构的加速,未来云原生运维监控或许会更智能,能够基于机器学习实现自动异常检测和修复,建立起自动化的容器和服务自愈机制等;

会更实时,能够与业务同频感知,即时的更新资源关系,智能分析事件触发原因等;

会更可视,帮助运维减少复杂性,从用户视角出发更具同理心,实现多角度的监控数据关联;

会更云原生,无论是容器、微服务、服务网络还是云网络、云拓扑及多云混合模式等,会为数字化转型提供一个更好的场地。

2.GPT-Ops

谈及到GPT,老杨表示对于智能运维而言,很难与GPT产生关联。其原因在于GPT的本质是大模型,而运维需要从繁复的数据中挖掘数据,会分为很多个小场景,但如果未来在大量云化的情况下,或许会产生AIOps对应的大模型,能够得以融合。

至于未来AIOps本身而言,应当会走向GPT-Ops的形式,这里是指主要借鉴GPT大模型中提示模块,即通过小数据训练而成的模型,在经过专家的提示调整后(类似语标注),然后继续自动学习校准模型,实现运维真正的智能化,产生的效益也越来越大。


​擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散

猜你喜欢

转载自blog.csdn.net/qq_37641528/article/details/130202501