基于统计学方法

异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区
域中的对象，把它们作为异常点。----相当于假设检验
参数方法假定正常的数据对象被一个以为参数的参数分布产生。该参数分布的概率密度函数给
出对象被该分布产生的概率。该值越小，越可能是异常点。
非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和
性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据
学习模型是不可能的）。
如果数据点超过范围：3sigma原则，那么这些点很有可能是异常点。
利用数据集的上下四分位数（Q1和Q3）、中点等形成。异常点常被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的那些数据。

在这里插入图片描述
做箱线图观测！
许多一元异常点检测方法都可以扩充，用来处理多元
数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。求出每一维度的均值和标准差。如果特征之间有相关性，就要用到多元高斯分布。

非参数方法对数据做较少假定，因而在更多情况下都可以使用。
步骤1：构造直方图
步骤2：检测异常点
使用直方图作为异常点检测的非参数模型的一个缺点是，很难选择一个合适的箱尺寸。一方面，如果箱
尺寸太小，则许多正常对象都会落入空的或稀疏的箱中，因而被误识别为异常点。另一方面，如果箱尺
寸太大，则异常点对象可能渗入某些频繁的箱中，因而“假扮”成正常的。

HBOS全名为：Histogram-based Outlier Score。它是一种单变量方法的组合，不能对特征之间的依赖
关系进行建模，但是计算速度较快，对大数据集友好。其基本假设是数据集的每个维度相互独立。然后
对每个维度进行区间(bin)划分，区间的密度越高，异常评分越低。

在这里插入图片描述
----该公式类似于极大似然估计的推导过程

猜你喜欢