Tubi 时间序列 KPI 的异常值检测

欢迎来到 Tubi—— 在这里,广告型视频点播永不停歇!

作为全球最大的流媒体服务之一,Tubi 保持稳定增长,并始终关注对业务发展至关重要的前沿趋势。基于此,Tubi 数据科学团队创建了一套全新警报系统,对 Key Performance Indicators(KPIs) 的异常值和趋势进行检测。我们深知 KPI 指标检测是极具挑战的一项工作,人们常常容易迷失在数字中,而忽视了那些重要事件。因此,我们这一套警报系统足够灵活,可适用于不同的细分板块;也足够准确,可提高灵敏性,降低特异性。

来吧,让我们通过本文一起深入了解 Tubi 数据科学团队在开发这一系统时如何克服了这些重大挑战。

需求与挑战

随着 Tubi 服务的自然稳定发展,我们观察到大多数指标都呈现上升趋势。而实际上,Tubi 的使用情况呈现季节性趋势,其中包括周末、工作日和假期的涨落。因此,我们必须进行适当的调整,以避免任何潜在的、对数据的错误解读。未经精确调整,指标的下降将有可能在整体增长趋势中被忽视,或者由于每周波动而误报。

我们面临的另一个挑战是需要处理各种不同类型的指标。一方面,在 Tubi,一些指标是 0 到 1 的百分比(例如转化率和留存率),而其他指标则没有上限(例如观看时间和访客数量)。另一方面,这些指标的表现也会受到观众类型和平台使用人数规模的显著影响。我们必须找到一个解决方案,能正确体现各种指标多样的变化趋势和行为特性。

面对以上两大挑战,我们的解决方案之一是将指标分割为基于观众类型和平台组合的不同时间序列。由此,我们可以更详尽地查看每个指标,更准确地识别问题;基于各种组合而切分成的不同指标,我们也可以消除各个指标中的偏差。另外,为消除每个分组中的趋势和季节性影响因素,我们利用了 statsmodels 库中强大的 seasonal_decompose(季节性分解函数),这一函数可以识别并消除每个分组时间序列中的趋势和季节性成分,是将时间序列分解为其核心组成部分的简单方法。示例如下:

时间序列 1

分解后的时间序列 1

上图展示了分解时间序列所产生的效果 —— 可以去除大部分的季节性峰值和低谷,同时保留时间序列的整体特征。我们的新 KPI 警报系统需要严格满足一系列需求,包括:

· 覆盖按优先级排序的指标和用户类型;

· 实现对异常的高精准检测;

· 能对警报进行优先级排序;

· 包含警报系统中出现的下降与尖峰值。

该警报系统最大化真阳性(True Positives)和最小化假阳性(False Positives)的能力,决定了其可靠性和有效性。基于以上挑战和需求,Tubi 数据科学团队必须实现一个能灵活覆盖所有不同细分板块的系统,并足够准确,提高真阳性率,降低假阳性率。

如何构建这一新系统?我们将开发两个具体实施方法:

· 方法论第一部分 —— 异常检测;

· 方法学第二部分 —— 趋势检测。

异常检测

异常是与时间序列的一般走向显著不同的观测值。为了在 Tubi KPIs 中对异常进行检测,我们采用了将时间序列作为输入的 Matrix Profiling(MP)算法。MP 算法还将计算时间序列中每个点的分数,以此测量该值与其他值的差异。在实现上,我们使用了广泛采用的开源 Stumpy 软件包

我们选择 MP 用于异常检测有以下原因:

· 简单易实现 —— 通过标准库便可以轻松采用 MP;

· 可解释性 —— 对于重视解释性的用例, MP 是一个很好的选择;

· 空间效率和速度—— 大多数 MP 算法需要的内存很少,高度可并行化,计算速度很快;

· 用在任意时间的算法 —— MP 算法可以用在任意时间,无需特定的训练数据 / 窗口,可以快速实时地使用;

· 可维护性 —— MP 的结果可有效存储,对应的维护工作也比较轻松;

· 无监督方法—— MP 不需要预先标注的数据点或训练 / 测试流程。

接下来,我们将 MP 算法分解为以下具体步骤。

Matrix Profile 算法

Matrix Profile(MP)是 2016 年由多位不同大学的研究者引入的一种数据结构,而 MP 的定义为:一种存储着时间序列中任意子序列与其最近邻的子序列的欧式距离(标准化后的欧氏距离)的向量。当使用 MP 时,一个时间序列被划分成许多连续的固定长度子序列,并使用欧式距离或其他距离计算方法进行相互间的比较。

图片来源:Stumpy 官方文档

这种比较是通过滑动窗口的方式进行的,直到覆盖了所有可能的组合。

图片来源:Stumpy 官方文档

这些比较的结果存储在 Matrix Profile 中。

图片来源:Stumpy 官方文档

计算 Matrix Profile 时,只保留了每个子序列与最近邻的距离。这个分数代表了该子序列与时间序列的其余部分之间的整体相似性。为了理解 Matrix Profile 的结果,重要的是理解其中的低值表示时间序列中的潜在模式或模型。换言之,这些低值代表了彼此高度相似的时序中的连续对,并预示了时间序列中可能存在类似重复模式。另一方面,高值表示时间序列中可能存在的异常值或异常事件。

有一点值得注意:虽然 Matrix Profile 为分析时间序列数据提供了强大的工具,考虑数据的上下文和所解决的具体问题依然至关重要。对时间序列和相应 Matrix Profile 进行人工审查,可以帮助我们理解数据中的相似模式和异常点。如需了解有关 Matrix Profile 算法的更多信息,请参阅 Stumpy 官方文档

Matrix Profile 的实现

现在,我们已经了解了 Matrix Profile 的工作原理,接下来一起看看 Matrix Profile 的实现。对于每个片段,我们最终实现的异常检测方式如下:

1. 时间序列数据经过预处理,消除趋势和季节性。

2. 预处理后的数据输入到不同版本的 Matrix Profile 函数中,以提高结果的稳定性:

· 原始版本 —— 在分析时间序列数据之前,不对其进行任何更改。

· 移动块抽样版本 —— 将时间序列分割成较小的片段,随机洗牌并创建用于分析的新序列,以减小数据中任何趋势或模式带来的影响。

· 随机窗口分割版本 —— 将时间序列分割成较小的多个重叠窗口,选择这些窗口的一个随机子集用于分析,以捕捉数据的局部结构,并减小任何趋势或周期性模式带来的影响。

3. 计算每个数据点的周度百分比变化。

4. 每个数据点的最终异常得分,等于 MP 结果之和与周度变化的乘积。

5. 任何超过某个阈值的得分都将被标记为异常,并在表中有所记录。执行 Matrix Profile 旨在检测时间序列数据中的异常点,以优化每日下降的平均程度。我们通过使用一系列参数来控制 MP 执行进行测试,并循环遍历不同的参数组合,以实现对历史异常值的最大化检测。这些参数包括:

· KPI 天数 —— 输入时间序列的长度。我们希望涵盖足够多天数,以涵盖尽可能多的信号,同时减少噪音。

· MP 窗口 —— 在定义异常得分时,对时间序列切片后片段的长度。

· C 因子 —— 一个用于调整阈值的因子;通过将阈值乘以 C 因子,我们可以使算法对潜在异常变得敏感。

  • 更高的 C 值将生成较高的阈值,算法则更难以检测到潜在异常。

  • 较低的 C 值将生成较低的阈值,算法则更容易检测到潜在异常。

我们的目标是找到最佳参数组合,以达到最高的每日下降的平均程度。我们还对图表结果进行了人工审查,以确保异常检测的准确性。

使用 Matrix Profiling 进行异常检测的一个例子,红点为算法所识别的异常值

趋势检测

在某些情况下,某个指标可能不会出现具有警示性的骤变,而会经历一个缓慢持续下降的过程。为识别这种情况,我们采用了 Moving Average Convergence / Divergence(MACD)技术。

MACD 多用于股市分析,跟踪趋势并生成买入 / 卖出信号;我们选择使用 MACD 是因为它适用于任何时间序列数据,并易于解释。MACD 背后的逻辑如图所示:

1. 时间序列数据经过预处理,去除了趋势和季节性。

2. 使用两个不同的时间窗口参数,对数据使用指数加权移动平均(EWMA)函数。一个参数用于慢速滑动窗口,另一个参数用于快速滑动窗口,这有助于识别数据在不同时间尺度上的趋势。

3. 从慢速趋势中减去快速趋势得到 MACD 曲线,并再次应用指数加权平均,获得 MACD 信号曲线

  • 当输入大多为上升时,信号为正;

  • 当输入大多为下降时,信号为负。

4. 步骤 3 的指数移动平均 MACD 信号曲线减去 MACD 曲线,我们会得到 MACD 直方图。这个直方图有助于我们检测时间序列数据中的渐变变化。利用 MACD 直方图,我们可以确定 —— 当趋势位于零以上时,出现正动量;当趋势位于零以下时,出现负动量。信号与零线的交点,表示趋势发生了变化,尤其是当趋势从正向变为负向时。

动量信号

MACD

这是 MACD 用于 Tubi 观看时长的一个示例。第一张图显示了每日指标,并在 MACD 信号从负向变为正向或相反时,分别做了绿色和红色的标记。第二张图包含了快速和慢速趋势,以及 MACD 直方图。

总结

我们介绍了在时间序列数据中检测异常值的两种方法:Matrix Profiling 和 MACD。通过这两种方法的结合使用,我们对数据有了更好的理解,并能在更广泛的范围中进行异常检测。我们还将分析结果显示在了一个数据表盘中,提供给相关同事使用。这一数据表盘为用户提供 KPI 的最新动态,也会提供有助于发现任何异常或异常值的可视化图表。在异常检测中引入 Matrix Profiling 和 MACD,我们可以主动识别问题,预防问题的恶化。

这一新系统已经运行了几个星期,我们也正在增添更多新功能。我们预期 Tubi 在后续发展过程中,将更多地依赖这一系统,以对业务的健康状况保持长期监测。特别感谢 Davide Totaro 对此项目的贡献。


如果你对类似项目感兴趣,欢迎加入 Tubi

作者:John Bae, Data Scientist at Tubi

译者:Yan ZHENG, Tubi Senior Engineer - Machine Learning

猜你喜欢

转载自blog.csdn.net/weixin_49193714/article/details/131601969