AnomalyDetection(异常检测)

ProblemMotivation(问题的动机)

给定数据集x(1),x(2),..,x(m)，我们假使数据集是正常的，我们希望知道新的数据xtest 是不是异常的，即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。

上图中，在蓝色圈内的数据属于该组数据的可能性较高，而越是偏远的数据，其属于该组数据的可能性就越低。

这种方法称为密度估计，表达如下：

欺诈检测：

X(i)=用户的第 i 个活动特征

模型p(x) =我们其属于一组数据的可能性

通过p(x)< ε检测非正常用户。

通常如果我们认为变量x符合高斯分布x~N(μ,σ^2)则其概率密度函数为：

其中μ=1/m(∑_(i=1)^m▒x^((i)) );σ^2=1/m ∑_(i=1)^m▒〖(x^((i) )-u)〗^2 ;

异常检测算法：

对于给定的数据集 x(1),x(2),...,x(m)，我们要针对每一个特征计算μ和的估计值。

一旦我们获得了平均值和方差的估计值，给定新的一个训练实例，根据模型计算p(x)：

当时P(x)<ε，为异常。

我们选择一个，将p(x)=ε作为我们的判定边界，当p(x)>ε时预测数据为正常数据，否则为异常。

异常检测算法是一个非监督学习算法，意味着我们无法根据结果变量y的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。

当我们开发一个异常检测系统时，我们从带标记（异常或正常）的数据着手，我们从其中选择一部分正常数据用于构建训练集，然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

例如：我们有10000台正常引擎的数据，有20台异常引擎的数据。我们这样分配数据：

6000台正常引擎的数据作为训练集

2000台正常引擎和10台异常引擎的数据作为交叉检验集

2000台正常引擎和10台异常引擎的数据作为测试集

具体的评价方法如下：

1.根据测试集数据，我们估计特征的平均值和方差并构建p(x)函数。

2.对交叉检验集，我们尝试使用不同的值作为阀值，并预测数据是否异常，根据 F1值或者查准率与查全率的比例来选择。

3. 选出后，针对测试集进行预测，计算异常检验系统的 F1 值，或者查准率与查全率之比。

之前我们构建的异常检测系统也使用了带标记的数据，与监督学习有些相似，下面的对比有助于选择采用监督学习还是异常检测。

异常检测	监督学习
非常少量的正向类（异常数据y=1），大量的负向类（y=0）	同时有大量的正向类和负向类
许多不同种类的异常（非常难找出统一的模型）。少量的正向类数据来训练算法	有足够多的正向类实例，足够用于训练算法，未来遇到的正向类实例可能与训练集中的非常相似。
未来遇到的异常可能与已掌握的异常非常的不同。
例如： 1、欺诈行为检测 2、生产（如：飞机引擎） 3、检测数据中心的计算机运行状况	例如： 1、邮件过滤器 2、天气预报 3、肿瘤分类