openGauss DBMind上的多指标关联性分析介绍

背景

随着互联网的发展，今天的数据库系统往往非常庞大且复杂，针对数据库系统的运维工作需要监控大量数据指标来了解数据库的运行状况。数据库指标往往以时间序列的方式出现，当业务层面关键指标出现异常时，运维人员需要迅速定位异常情况的原因来相应制定解决方案。但是当指标数量很多的时候，筛选信息的工作量也会很庞大。

我们都知道某些数据库指标之间有关联性，通过有方向性的关联性算法，在异常发生时将同一时间段的指标进行比对，根据相关性的强弱将异常时间段内与关键指标相关的指标筛选出来，有助于帮助运维人员迅速定位问题以及减轻运维人员的工作量，有助于我们锁定问题的根因。

指标的关联性

如前文所述，不同监控指标数据之间是存在关联性的，下图展示两个不同指标之间的相关关系。

Pearson相关系数--最简单的相关性度量方法

要理解Pearson相关系数，首先要理解协方差(Covariance)，协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

Pearson相关系数公式如下：

由公式可知，Pearson相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但是协方差的值的大小并不能很好地度量两个随机变量的关联程度。这是因为，二维空间中分布着一些数据，我们想知道数据点坐标X轴和Y轴的相关程度，如果X与Y的相关程度较小但是数据分布得比较离散，会导致求出的协方差值较大，用这个值来衡量相关程度是不合理的。

为了更好地度量两个随机变量的相关程度，Pearson相关系数在协方差的基础上除以两个随机变量的标准差，容易得出，Pearson相关系数是一个介于-1到1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1。它很直观，也很容易理解，

Pearson相关系数有以下特点：

- 使用最广泛，假定数据符合正态分布

- 受异常值的影响比较大

- 适用于线性关系

- 必须是成对数据，每对数据之间相互独立

- 样本>30

Person相关系数是对于绝大多数场景都是胜任的，但是它存在几个明显的约束条件，即受异常值影响很大、符合正态分布即线性相关。因此，openGauss的DBMind在进行分析时，并没有直接使用该方法，而是混合了一系列的算法进行取长补短。但是，其在指标关联性分析的问题解决上，思路是一致的。

指标压缩

很多时间序列之间本质上是等价的或者接近等价，相关性分析的结果中，相关性最高的结果往往是这类等价指标，为了减少运维人员的工作量，应该先通过相关性分析对冗余的指标进行合并，减少指标异常时相关性分析给出的结果数量。

如下图所示，该两个指标之间高度相关，在进行指标关联的时候可以将高度相关的指标进行压缩，对相关性分析的结果进行压缩。

以实际场景为例，我们会发现相关性矩阵对角线上有深色色块，图中将同质化较强的指标聚集在一起，指出了指标中可能存在的指标冗余情况。

构建指标的因果关系链

在计算指标之间的相关性的同时，通过将时间序列在时间轴上进行平移，找出相关性最强时的时间差，不仅可以得到告警之间是否存在相关性，还可以对先后顺序，波动顺序进行分析。如下图所示，sys_db_size向右平移获得了更大的相关性系数，表示sys_db_size的增长先于dn_memory发生，意味着数据库规模增长可能是内存异常波动的原因而非结果。