【数据产品案例】携程新一代呼叫中心话务监控平台

案例来源:@携程技术中心

1. 原话务平台面临的问题
1)人工设置告警规则,无法适应业务变化
2)小业务量监控项多、数据量小,难以设定有效规则
3)误报
4)告警风暴:大型故障发生产生告警风暴,影响排障效率

2. Horus解决方案
1)自动检测:
a. 首先进行跌零检测,如数据跌零切累计损失话务量满足规定次数,告警
b. 未跌零的情况下,判断数据是否超过上下阈值(阈值根据历史数据正态分布计算,即上下n个标准差范围)
c. 超过上下阈值的情况下,判断变化率是否超过规定值,超过告警


3. 应用场景
1)话务量检测:检测各号码的话务量是否异常
2)成功率检测:检测外呼成功率
3)周期性特征检测:有一些话务有周期特征,分析规律,避免误报
4)小话务量处理:将其按照一小时聚集,使波动变小,可以进行自动检测。缺点是监控维度为1小时,从问题发生到告警会有延迟
5)关联告警:有一些监控项之间存在关联,如传真请求量与传真发送量,如果前者报警后,后者也增加,则不报警,认为是一次事件
6)长期小幅下跌:计算累计影响话务量,进行预警
7)告警聚合:同类报警项,聚合成一个通知

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80544505
今日推荐