基于统计学方法

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区
域中的对象,把它们作为异常点。----相当于假设检验
参数方法假定正常的数据对象被一个以 为参数的参数分布产生。该参数分布的概率密度函数 给
出对象 被该分布产生的概率。该值越小, 越可能是异常点。
非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和
性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据
学习模型是不可能的)。
如果数据点超过范围 :3sigma原则,那么这些点很有可能是异常点。
利用数据集的上下四分位数(Q1和Q3)、中点等形成。异常点常被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的那些数据。

在这里插入图片描述
做箱线图观测!
许多一元异常点检测方法都可以扩充,用来处理多元
数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。求出每一维度的均值和标准差。如果特征之间有相关性,就要用到多元高斯分布。

非参数方法对数据做较少假定,因而在更多情况下都可以使用。
步骤1:构造直方图
步骤2:检测异常点
使用直方图作为异常点检测的非参数模型的一个缺点是,很难选择一个合适的箱尺寸。一方面,如果箱
尺寸太小,则许多正常对象都会落入空的或稀疏的箱中,因而被误识别为异常点。另一方面,如果箱尺
寸太大,则异常点对象可能渗入某些频繁的箱中,因而“假扮”成正常的。

HBOS全名为:Histogram-based Outlier Score。它是一种单变量方法的组合,不能对特征之间的依赖
关系进行建模,但是计算速度较快,对大数据集友好。其基本假设是数据集的每个维度相互独立。然后
对每个维度进行区间(bin)划分,区间的密度越高,异常评分越低。

在这里插入图片描述
----该公式类似于极大似然估计的推导过程

猜你喜欢

转载自blog.csdn.net/m0_49978528/article/details/112689317
今日推荐