AIOPS案例学习-AIOps在业务运维的 最佳应用实践

说明:该文章是云智慧(北京)科技有限公司 杨路在2018年的云栖大会上的分享。主要分为3部分介绍:

云智慧+ AIOPS, AIOPS实践、 AIOPS更大价值

一、云智慧+ AIOPS

趋势需要: 

1、 提升IT基础架构的运营能力

2、优化用户体验及业务运营能力

3、 实现智能化运营能力

在Gartner报告统计,在2019年25%的全球企业将会有策略地实现AIOps平台。而当前不足5%。 

云智慧的AIOPS架构(来源于原PPT):

二、最佳实践

2.1 大数据运维

包括部署大数据核心平台,接入IT、网络、私有云的数据、统一监控告警平台、大数据运维分析

2.2 业务运维

采集用户端和后端的数据、真实用户体验、浏览器用户体验等各种大屏

2.3 智能运维

部署机器学习平台、深度学习平台、IT资源规划预测、应用健康分析、用户留存预测

案例介绍:

某药品制造企业IT部门不仅负责传统意义上的运维系统,并且包括了多项运营管理职责。例如门禁系统、考评系统、上网行为管理、基础设备规划、产线监控系统等。因此如何快速的聚合多系统数据,并且进一步挖掘其中的价值非常迫切。在平台搭建完成后,在日常运维或使用过程中,由于不可能单独划分出人力资源对该平台进行区别维护,因此系统的易用性和可操作性对于该企业尤为重要。对于多样的应用场景,该企业也需要能够有更多的业界经验进行借鉴,特别是制造业对IT运维、运营、安全场景的优秀案例。所以可以利用云智慧来帮助运维人员快速发现问题,提高运维效率,帮助管理人员对业务进行高效管理和科学决策。

智能运维

背景需求:

  • 50% 每天工作内容中,仅有50%为计划内。
  • 云计算 随着越来越多的企业上云,运维工作范围急速扩大。
  • 复杂 故障原因日趋复杂,仅凭已有经验进行处理已然不可行。
  • 重复 部分故障是已知问题,但因为牵涉面广暂时不做解决,需要周期性的进行重复处理。

传统的固定告警基线有很多缺陷,例如反复触发、恢复会产生大量告警,并且反复触发的告警也会掩盖真实情况。动态告警基线是根据历史数据统计值生成的,除自动生成外,也可人为创建、修改。
对于AI来说应用于整个运维会有一些价值,首先更加主动地将系统数据进行采集,实时感知真实用户性能体验,借助机器学习能够进行故障预测,采用更加丰富多样的告警通知方式。从关联性角度来讲,更高效的找到问题根因,通过时序或逻辑,找到多个现象互相影响的关系将告警进行关联后,减少人为筛选无用或重复信息的成本。从业务视角切入,更直接的支持业务提升,通过大数据技术,打通多个业务之间的数据孤岛更好体现IT部门在公司中的价值。API多种呈现的方式灵活多样,不仅有大屏、报表、报告,还有大数据技术,使得实时数据呈现成为可能,并且在同面积视野中,能够呈现更多维度的信息。

三、最大的价值

跨系统、高效率、高精准、面向业务

跨系统: 能将多个系统的数据进行统一汇总,在相应的模型下将原本孤立的数据孤独进行连接

高效率:不在割接的看到故障现象,能够快速在多个表象中,理清楚因果关系,并将根音快速地挖掘出来

高精准:最大程度的避免人为判断时引入的干扰因素,使得分析结果的可行度大大提升,也随着故障处理次数的积累,给出相应的意见

面向业务:从最终也是最重要的业务角度入手,自影响业务的结果入手,不断拓展需要考虑的影响因素。在此基础上,才能真正发现业务与运维数据之间的关联性

学习感悟:

云智慧的运维系统相对以前看过AIOPS实践,它的优势在于把大数据进行大屏可视化,并且他它的实现阶段比较新颖,分为大数据、业务、智能这三个阶段逐步去讲的。

最后参考的文章:

https://yq.aliyun.com/articles/603859

原材料链接:https://yq.aliyun.com/download/2737?spm=a2c4e.11163080.searchblog.9.2fdc2ec18UwKAC

要是你在西安,感兴趣一起学习AIOPS,欢迎加入QQ群 860794445

猜你喜欢

转载自blog.csdn.net/sxb0841901116/article/details/82970411