open-falcon 监控系统

线上部署

dohko环境:falcon.dohko.hualala.com
世纪互联:falcon.sj.hualala.com
首鸣:falcon.sm.hualala.com
有接收报警需求的用户,需要在falcon上添加相应账号,同时加入对应业务组。初始账号/密码都是hualala账号,也可以使用预置的 rd/rd@hualala 账号登录。

使用方法

falcon UI 主要分为几个部分

  • Dashboard:监控查询,这个也是RD最关心的部分
  • Screen:一个便捷的查询入口,可以预定义一些查询条件,方便快速查看
  • HostGroups:配置业务组,也就是可以将同一个服务的 机器/虚拟机/容器等(其实是系统中endpoint的概念)设置为一个组,对同一个组里的 机器/虚拟机/容器 可以应用相同的报警规则,也可以对同一组 机器/虚拟机/容器 的监控数据做聚合操作
  • Templates:配置监控报警策略模板,一个模板需要绑定到HostGroups上才生效
  • Expressions:表达式是一种灵活的报警策略配置,一旦配置对所有的监控数据都生效
  • Nodata:配置某些监控项没有数据上报时,如何补偿数据的策略
  • Alarm-Dashboard:线上产生报警情况和报警历史过程
Dashboard
10473190-1b245c3d7cf3d4fb.png
falcon 的数据模型为

数据模型

{
    metric: load.1min,
    endpoint: open-falcon-host,
    tags: srv=falcon,idc=aws-sgp,group=az1,
    value: 1.5,
    timestamp: `date +%s`,
    counterType: GAUGE,
    step: 60
}

metric是监控指标名称,endpoint是监控实体,tags是监控数据的属性标签,counterType是Open-Falcon定义的数据类型(取值为GAUGE、COUNTER),step为监控数据的上报周期,value和timestamp是有效的监控数据。
所以查询的时候

  1. 先在 Endpoint 搜索框中输入要查询的 hostname,containderId,domain 等(看采集或推送数据时如何定义),可以在标签,过滤,显示数量处 缩小结果集合
  2. 选中需要查看数据的Endpoint
  3. 在 Counter 搜索框中输入需要查询的监控项(metric/tags,metric 就是监控项名称,tags是自定义的一些标签,用于标记数据)
  4. 选择我们关注的Counter,然后点击 看图 就可以显示监控图了
    Alam-Dashboard
    10473190-562aa810bbc17de2.png

    目前alarm页面会显示所有未处理(这里指没有关注过,自动恢复了的也算)的报警,点击 告警事件列表 可以看到报警的过程
    其他
    HostGroup, Template, Expression 和 Nodata 配置和原来一样,主要由OP同学维护,后续RD同学如果需要自行配制,再在此补充。
    参考
    v0.2使用文档:https://book.open-falcon.org/zh_0_2/intro/index.html
    github地址:https://github.com/open-falcon

猜你喜欢

转载自blog.csdn.net/weixin_34119545/article/details/87230811
今日推荐