AIOps智能运维2018全解析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/g2V13ah/article/details/86385627

640?wx_fmt=gif


640?wx_fmt=png

AIOps智能运维这个公众号,从2017年7月27日开篇,已经陪伴大家度过了500多天。我们的路走了十八个月,希望技术遍布运维各处;文章每周一篇,每个文字都是呕心沥血;关注屡创新高,感谢却也颇觉欣慰;回头望路,祝福大家仍是此间少年。

2019,运维依旧 640?wx_fmt=png

这一年,我们分享了很多百度智能运维的技术,从自动化运维到智能化运维,从监控到部署,从流量接入到故障自愈,无所不含。今天来盘点一下,也希望给诸位读者一个“索引”,方便大家便捷地获取信息,找到所求

640?wx_fmt=png

我们的历史

我们在2017年公众号刚发布的时候,隆重推出过3篇百度自动化运维历史观,这是我们的巨T所写。希望了解我们的历史,以及因为这些历史所带来的不同于行业其他公司发展思路的朋友,非常推荐你重新翻阅一下《百度自动化运维的演进(一)》《百度自动化运维的演进(二》。

我最近在看《丝绸之路》,深刻感受到,要观多路,才能行致远。每个文明都有其发展的源头和独特的发展线路,是底格里斯、幼发拉底也好,是搜索、社交也好,不外如是。研究透了历史,很多东西才能看得通透。

我们的AIOps

当然,这个公众号的名字叫做“AIOps智能运维”,我们的内容自然有非常多AIOps相关的内容,我们遵循百度做AI的一贯方法,数据、算法、算力还有场景、组织,一个都不能少。如果想全面了解我们的AIOps,欢迎回顾如下内容。

数据篇:《构建AIOps的MNIST》《运维知识库之ETL》;

算法篇:《创造程序的白衣天使(上)创造程序的白衣天使(下)

算力篇:《AIOps时代,你准备好了吗?》《百度智能运维工程架构》;

场景篇:《单机房故障自愈(一)单机房故障自愈(二)》《单机房故障自愈(三)(睡好,黎明,春天三部曲)《故障定位场景下的数据可视化实践》;

组织结构篇:《AIOps中的四大金刚》。

每一篇都是呕心沥血多年沉淀而略有所得,希望能给大家一些帮助。

640?wx_fmt=png

当然,运维的传统“科目”肯定不能缺少,我们已经把AIOps的很多理念完整地融入到了传统运维科目中。就比如监控,作为运维管理三剑客(Monitoring、Automation、Service Desk)的重要一员,我们当然会给予非常多的出镜率。OP不是RD、QA,不可能掌控每一行代码,但我们却想尽可能清晰地看到系统中的每一点一滴。我们就像医生一样,通过各种化验结果(监控指标),望闻问切(查日志爬数据),翻阅文献资料(SOP、知识库)来给出诊断。知道了病因,还要治,治的方法就更加五花八门了,这一年间,行业内也是各说各话,好不热闹。

640?wx_fmt=png

百度的黑盒网络监控


在百度,监控是一个庞大的体系,网络监控、设备监控、系统监控、业务监控等等。当然,从团队职责的角度出发,我们更侧重于怎么把业务运维做好,对于硬件设备和IDC运维可能涉猎不多。

就比如网络监控。大家一般会从两个角度出发,一个是白盒监控,IDC运维希望监控网络中每个节点和链路的状态和质量,什么TOR啦、板卡啦、交换机啦,blabla…,谁有故障都要查;另一个是黑盒监控,我不关心哪个网络设备故障了,我只想知道实际使用网络时,端到端(从一台服务器到另一台服务器或从一个终端用户到一个服务端程序)质量如何,是不是通的

针对此,我们比较详尽地介绍了百度的黑盒网络监控是怎么做的,外部运营商网络监测可通过《百度网络监控实战:猎鹰一战成名(上)百度网络监控实战:猎鹰一战成名(下)骨干网链路异常?还是机房侧异常?》了解,内部IDC网络监测可通过《百度网络监控实战:NetRadar横空出世(上)百度网络监控实战:NetRadar横空出世(下)还记得概率课本中的二项分布吗?在我们的网络判障中发挥了大作用!》了解。

系统地理解和建设监控

如果你想开始系统地理解和建设监控,而不是用开源随便搭一套对付着能“用”,那下面这些文章很适合你。

原始的服务器资源数据或日志数据采集而成监控指标,翻阅《监控数据从哪来?》《百度海量日志处理》《日志监控实践-监控Agent集成Lua引擎实现多维度日志采集》;监控指标经过再加工而成高级业务指标《聊一聊实时计算系统设计》。

业务指标有了,你一方面得存储吧,可以关注《百度大规模时序数据存储(一)百度大规模时序数据存储(二)》《百度大规模时序数据存储(三)探索与发现,揭秘百度万亿时序数据存储架构》。

一方面你还得检测判断而产生异常事件,《异常检测:百度是这样做的》《我们不一样!告诉你百度是如何做智能流量异常检测的》《复杂异常检测如何快速落地?看看百度怎么做》。

异常事件还需要通知到需要知晓它的人或系统,《百度监控报警那些事儿》《我们不生产报警,我们只是报警的搬运工》。

哦,监控事件也需要存储呢,《面对海量事件数据,我来告诉你怎么办!》《海量事件数据存储与计算——高可用建设》。

640?wx_fmt=png

其实,监控系统是一个非常大的范畴,它有着很多的变种应用,就比如时序指标的存储(TSDB),除了咱们的监控系统需要,现在在物联网(IoT)等方向都是不可或缺,百度是经过了10年的踩坑、填坑,才把自己的TSDB构建成可以支撑每秒xx数据点(想知道xx是多少?请翻阅历史文章)的写入,业内首屈一指。再比如,事件的存储(EventDB),不仅局限于监控事件,它还可以存储程序变更发布的事件、运维操作事件等等,基于它的应用也非常丰富多样。

640?wx_fmt=png

报警收敛

此外,我们还在几个重点场景,讲了一下我们的经验、教训和应对措施。报警一直是困扰OP的大事儿,以前用Nokia的时候,因为内存所限,得经常清理报警短信,当然,现在手机性能好了,手机倒是塞不满了,只不过,更懒得看了。我们想提升OP的幸福感,报警量要降低,报警质量要提升,不能造成漏报。欢迎收听《我在百度对抗报警风暴(一)我在百度对抗报警风暴(二)。此外,监控配置的管理和分发,也一直是超大规模监控系统的痛点难点之一,我们的一些经验可以参看《走近监控系统的神经中枢》。在你把一切都建立起来后,最后还得考虑《百度如何实现大规模分布式监控系统的高可用》。

Automation

Automation,或者应该说是狭义Automation——自动化部署方向,也一直是百度运维的最重要成员。程序的部署《一键上线Archer|百度持续部署的瑞士军刀》《产品迭代的最后一公里》;任务的调度《今天我们来聊一个很基础的话题:如何执行一条命令》《今天我们来聊一个很高级的话题:如何设计一个大规模远程命令执行系统》;数据的分发《嗖的一下,让数据自动生效!》;服务管理和资源定位《程序:我从哪里来?》。看看这些,你能得到更多。

HTTPS

在流量接入层面,我们挑选了最近几年百度的重要方向——HTTPS,详尽介绍了百度在这个方向的实践经验《大型网站的HTTPS实践(一)大型网站的HTTPS实践(二)》《大型网站的HTTPS实践(三)百度HTTPS性能优化经验》《百度HTTPS部署实践》《技术宅告诉你如何搜索更安全》,每一篇都是程序员哥哥的老嫩手敲的呀。

当然,在这么多超级干货之后,我们的架构师也是收不住了,来了一把个人SHOW的乱入《架构集成导读》;嗯,还有我们的帅锅靓妹PM们也不甘寂寞,谁说基础平台就不需要PM的?《关于B端产品的用户体验,你要知道这些!》《戏精PM的独白:如何高效地与研发工程师沟通》《B端究竟需要什么样的产品经理》;好吧,还有我们的项目经理《教你优雅解决项目Delay和交付质量差的问题》。

在做AIOps的过程中,我们深刻意识到,每个公司,每个行业,都因为其背景不同,有着各种不同的做事方法。我们的团队,同时面向百度内部业务和百度的外部用户,所以我们非常侧重业务的落地和方法的通用性。很多人可能会觉得,AIOps落地不难啊。可是深入参与后,你就会发现,难点不在于算法多么高深或者架构多么复杂,当你需要落地在全场景业务时,当你的程序员优雅VS.超变态需求时,当你都搜集不全NB模型所需要的训练数据时,一切都不一样了。

市场现象也很多。有些商业公司很有意思,他们一方面承认AIOps是未来的发展趋势,但又不愿意投入和真心研究这个方向,基本都是东挪西凑,包个壳,出个PPT。AIOps的客户也是有各类不同的诉求,一些客户急切赶上潮流,争取科技进步;一些客户是切肤之痛,人扛不住,管理不过来,那么交给AI吧。

AIOps就跟无人驾驶一样,不是一朝一夕能达成的。如果是想打一枪换一个地方,走糙快猛还成;但若论长久之计,AIOps的落地如果都是走糙快猛的路线,那么只会让真心希望使用它的人感觉到失望,效果不尽如人意,甚至感觉,还不如传统运维呢。

讲了这么多,写在最后,我们是憋了个大招的《百度云企业级运维平台——NoahEE》,这是我们10年的历史沉淀走向商业化的重要里程碑。感谢这一年半来,所有为了AIOps智能运维的技术发展而辛苦付出的同学;也期待未来,和行业所有同仁一起,助力AIOps加速蓬勃发展!

640?wx_fmt=jpeg 2019,我们会继续努力,一方面,放出更多更好的智能运维技术,和大家一起分享、探讨;另一方面,前述文章的大部分能力都会集成到NoahEE上,如果想用,就联系我们吧!2019,努力依旧

阅读推荐

  运维实践


智能运维架构 | 架构集成 | 网络判障 | 监控数据采集 | 监控报警 | 网络异常 | 分布式监控系统 | 数据可视化 | 单机房故障自愈 | TSDB数据存储 | 异常检测 | 流量异常检测 | 复杂异常检测 | 报警风暴 | 实时计算 | 故障诊断 | 日志监控

  运维产品

企业级运维平台 | 运维知识库 | 通告平台 | 百度名字服务 | 业务部署 | 数据配送 | 集群控制系统 | 外网监控 | 内网监控 | 部署变更 | 配置管理

  精品推荐

AIOps中的四大金刚 | 智能运维 | AIOps时代 | 运维演进

640?wx_fmt=png

640?wx_fmt=gif

↓↓ 点击"阅读原文" 【了解更多精彩内容】 

猜你喜欢

转载自blog.csdn.net/g2V13ah/article/details/86385627