异常检测

异常检测

异常检测定义

我们按常规从一个例子入手：
这里写图片描述
这是一个飞机引擎的例子，有很多包括特征x1：产生的热量，x2：振动强度等等…
收集了很多数据集（m个），这是没有标签的数据，然后来了一个新的飞机引擎，测出新的数据 $x_{test}$ 。在图中可以看出，如果 $x_{test}$ 位于上面的绿点，那么这个飞机引擎是ok的；如果在下面的绿点，这个飞机引擎可能就是异常的。

更正式的定义
给定一个数据集{ $x^{(1)},x^{(2)},...,x^{(m)}$ }，如何判断 $x_{test}$ 是否是异常的？
首先我们确定这个数据集的数据都是正常的/非异常的。然后通过这些数据集建立 $x$ 的概率模型 $p(x)$ 。
当 $p(x_{test})<\epsilon$ ，那么我们可以标记这个是异常的。
反之，如果 $p(x_{test})\geq\epsilon$ ，那么我们可以标记这个是正常的。

异常检测算法

这里写图片描述
第一步，选择特征。第二步，计算每个特征在所有样本上的期望值和方差。第三步，计算概率模型p(x)。计算的方法是将每个特征的高斯分布概率函数累乘起来。

这里写图片描述
我们从图例来解析算法。
第一幅图是样本的分布，第二幅图是计算出的两个特征的高斯分布图。我们通过累乘两个特征的高斯分布概率，得到第三幅图。这幅图中高度是p（x）的值。可以看出，当 $p(x)<\epsilon$ 时指的是当样本点分布在很偏的地方。

算法评价
这里写图片描述
训练集上都是正常的数据。通过交叉验证可以调整 $\epsilon$ 的值。

异常检测vs监督学习

既然异常检测和监督学习都是为了预测给定一个样本判断它的标签是1还是0（异常还是正常），为什么不直接用监督学习代替异常检测呢？
下面是异常检测和监督学习的一些区别：

异常检测	监督学习
大量y=0（正常）样本，极少量y=1（异常）样本（常见的是0-20）	正样本和负样本都非常多
有很多不同类型的异常，异常样本数量很少，其算法可能难以从中学习，出现新的正样本无法用其他算法检测出来，这种情况我们更适合用异常检测	正样本足够多，出现新的正样本可能跟以前的正样本类似，这种情况更适合用监督学习

当特征看起来不像高斯分布
这里写图片描述
我们对特征进行改变，比如取对数log，或者对特征开方等，使得特征的分布近似于高斯分布。

多元高斯分布

这里写图片描述
在我们之前所举的例子中，p(x)趋向于形成上图左边中的品红线，而不会形成蓝色的椭圆线。在这种情况下，对绿色样本点的划分会有差别。
从上图的右图中可以看出，尽管有些案例分布在x1的最左边或者x2的左右两边，但是这些不会认为是异常值。

因此，我们需要一种改良版的异常检测算法来应对上图的情况。
我们需要用到多元高斯分布。
在多元高斯分布中，我们不会单独对 $p(x_1),p(x_2),...$ 进行建模，然后累乘为 $p(x)$ 。而是一次性的建模 $p(x)$ 。
参数： $\mu$ 和 $\Sigma$ （协方差矩阵）
多元高斯分布的公式不需要记住，只要在需要的时候去查就可以。