一 n9e三种数据源:
1时序 2日志 3trace
(一)时序数据源
- 对象列表
机器的元数据展示,在这里面做机器的分组管理(通过修改业务组)后面告警的配置可以从业务组的维度配置
- 仪表盘
提供内置的一些开源服务的仪表盘,仪表盘可以进行克隆
大盘支持多种样式的图表
3 记录规则的功能
(1)可以把promql的查询语句,保存成一个指标,在配置到大盘中,这样多人查询的时候查的就是单一指标就会减轻对时序库的查询压力
(2)多个告警规则都需要对某个指标进行计算,就可以把计算的promql保存成一个新的指标,来降低压力
(二)日志数据源
日志采集:要先配置好数据源
日志检索规则支持es的语法
(三)trace数据源
链路追踪
一般trace有两个场景,一个是想看一下耗时分布,另一个是看api请求的延迟高在什么地方
配置jaeger类型数据源
拓扑分析
一些模块的调用关系
二 告警的功能
告警规则配置、内置规则、屏蔽规则、订阅规则、活跃告警、历史告警
1. 内置规则:
和大盘类似,告警规则也提供了一些开源服务推荐的内置规则,可以进行克隆
2. 告警规则:
Metric类型的告警:
级别抑制:我们对于某一个指标有多级别阈值的告警设置,可以通过级别抑制打开,下面的n条规则,高级别的会抑制低级别的,低级别的告警通知就不会发送了。
机器类型的告警:机器失联、机器集群失联(集群内指定百分比的机器失联了告警)、机器时间偏移
执行频率 告警规则的执行频率
持续时长 符合告警规则的条件多长时间会触发告警
生效配置 支持在指定时间段收告警
仅在本业务组生效 只有本业务组的机器才会匹配这些告警
通知媒介
通知媒介的显示是在系统配置里面选择:
留观时长 防止指标频繁的在阈值上下波动,造成频繁的告警触发以及恢复提醒
通知间隔 减少频繁告警的干扰
最大发送次数 减少频繁告警的干扰
回调地址 可以做告警自愈,告警触发之后,配回调地址,回调到故障自愈的平台。也可以去配置自己的通道。
附加信息 备注:可以放预案连接,也可以放对应的大盘连接
3. 告警屏蔽:
- 处理告警的时候临时屏蔽(直接在告警详情点屏蔽就行)
- 服务变更时候的做告警屏蔽,支持周期性的屏蔽
4. 订阅规则:
- 除了在告警规则中配置的接收人员之外,比如对应业务的研发也需要收告警的话,可以配置订阅规则,订阅规则可以重新定义告警级别,媒介等等。
- 也可以用来做告警升级,一线的同学一个小时没处理对应告警,可以把告警升级到业务负责人
4. 告警事件:
历史告警:支持导出
活跃告警:哪些告警还没恢复
支持通过配置来实现告警事件的聚合。
格式:field:聚合的字段
(相当于group by 这个字段)图中的severity相当于告警级别的字段
下面的字段都可以用
4. 故障自愈
如果用夜莺自带的告警自愈
【例】表示调用id为3的自愈规则,只在n9e的机器上执行
执行历史
三 人员组织
1.权限管理
建立角色,配置对应权限点,再给用户赋予对应角色
2.用户管理
用户可以配置一些关联方式,比如钉钉等。再把人加到告警接收组,告警接收组关联的告警规则触发了,也会触发对应的钉钉等方式。
相关Token方式的自定义
四 系统配置
1. 通知设置
全局回调地址:夜莺的所有告警都会推到这个地址
通知脚本: 通过自定义脚本来调用短信或者电话网关来实现短信或者电话告警等等
通知媒介 :控制告警规则中显示的通知媒介
联系方式:控制建立用户时选择的联系方式
SMTP: 邮件网关
告警自愈:夜莺使用自己的告警自愈时配置的变量所对应的地址等信息