360内部监控系统"Wonder实践之路"

女主宣言

Wonder监控系统目前已经是360内部最大、最健全的监控系统。基于open-falcon改造的Wonder，从2016年4月上线至今已经运行了一年多，从最初的“乞丐版”，到现在的“神奇女侠版”，wonder的变化经历了很多。今天小主就为大家分享这篇来自公司内部的分享PPT：“Wonder监控系统实践之路”。

PS：丰富的一线技术、多元化的表现形式，尽在“HULK一线技术杂谈”，点关注哦！

前言

Wonder是 ADDOPS、HULK-dev团队基于开源项目Open-Falcon二次开发的监控系统。Wonder从2016年4月在360内部上线至今，节点数量超过了4W+台，采集的监控项超过千万。

特点：

强大灵活的数据采集
高效率的告警策略管理
人性化的告警设置
高效率的历史数据查询
高可用

Wonder对Open-Falcon改进的功能点：

Agent自动更新
存活监控、端口监控、日志监控
报警队列控制
超过最大报警次数重报
与硬件报修接口联动自动禁用报警
机房报警屏蔽
LastEvent状态持久化存储

现状

整体架构图

存活组件sniffer

存活监控组件sniffer：一个独立开发的存活监控组件，多机房部署，可以对机器的网络、端口存活进行多点监控。

如下是两组sniffer-agent存活组件采集的状态图：

线上规模

线上集群指标：

Transfer_QPS：20万/S;大约5分钟上报6千万监控项
采集监控项：1200万+
占用存储空间：2.4T
RRD归档存储时间：2年

数据上报

{
    metric: df.bytes.used,
    endpoint: w01v.add.bjyt.qihoo.net,
    tags: fstype=ext4,mount=/,
    value: 1.5,
    timestamp: `date +%s`,
    counterType: GAUGE,
    step: 60
}

Counter（计数器）：标识递增的数据，比如接口访问次数、网卡流量。
Gauge（原始值）：当前瞬时的一个状态，可能增加，也可能减小，比如CPU使用率，平均延时等等。

sum(df_bytes_used{fstype="ext4",mount="/"}) by (fstype,mount,hulkid)

RRD归档策略

// 设置各种归档策略
// 1分钟一个点存 3d
c.RRA("AVERAGE", 0.5, 1, RRA1PointCnt)

// 5m一个点存7d
c.RRA("AVERAGE", 0.5, 5, RRA5PointCnt)

// 20m一个点存15d
c.RRA("AVERAGE", 0.5, 20, RRA20PointCnt)

// 3小时一个点存6个月
c.RRA("AVERAGE", 0.5, 180, RRA180PointCnt)

// 12小时一个点存2year
c.RRA("AVERAGE", 0.5, 720, RRA720PointCnt)