运维标签管理模块设计

这是学习笔记的第 1910 篇文章


  运维标签管理其实是运维体系中比较容易忽视的角色。很多时候其实和元数据的属性掺和在一起了。我们应当建立独立开放的标签管理模块,让它成为运维体系中的催化剂。

比如我们打开朋友圈或者点开一篇文章可能会收到不同的推送广告,有些软件APP会根据你的阅读情况给你针对性的推送一些内容。这种现象背后就是有相应的标签,也就是大数据中经常听到的用户画像,按照这种概念的逻辑,到了数据库方向我就叫做数据库画像吧。

多年以前,我被一句话感染了,一个同事说,我们对待数据库就要像对待自己的孩子一样。其实这个代表一种工作态度,换个角度来说,我们管理的数据库,如果涉及几百个业务,那么他们肯定有自己的特点,在求同存异中,存在差异难免,况且这也是根据业务特点使然。

如果我们给这些数据库打上标签,在已有的体系之中去管理,根据一些特点建立模型,打上标签,那么我们的管理工作就会很容易扩展开来。

比如一个服务器运行时间超过3年未重启,那么可以算是一个高危服务状态在PC服务器的维保周期外是很容易出现异常情况的,对于这类业务我们就要重点关注灾备和高可用,我们可以打上一个“高危服务”的标签,类似这种的形式。

根据自己对于业务的理解,我对目前的标签管理进行了一些梳理。

640?wx_fmt=png

其中“标签管理”是基本的标签增删改查,能够支持多个维度的标签管理。

标签模型是管理的核心部门,我们需要建立相应的模型,通过模型的设计来创建多个标签,有些标签之间是有依赖的,比如标签A和标签B组合起来,根据条件可以衍生出标签C,逐步延伸出来就需要标签的关联关系,在建立一系列标签之后,我们可以根据这些标签信息进行上行下钻,来分析一些潜在的关系和问题。

自动化标签是根据已有的模型,通过周期性批量任务来触发检查,对已有的服务打上相关的标签,算是一种自动化运维的标签管理。

而数据库画像是在这些数据沉淀的基础之上,我们根据维度,根据业务特点和系统资源来建立相应的数据库画像,让我们的数据库服务具化为一种更加生动,容易理解的形式。 

当然最后也是我们做这件事情的一个价值输出,那就是我们的标签管理其实是和巡检紧密结合起来的,通过标签的模型可以对巡检模型具有一些直接的参考价值。

而巡检任务其实是和报警,监控形成三位一体的关系,我们的标签管理是穿插其中,通过建立丰富的模型来提供更多的数据价值。 



相关链接:


运维平台中的业务树初版设计

运维平台中的业务树梳理思考


640?


猜你喜欢

转载自blog.csdn.net/weixin_36250635/article/details/88266335