每天进步一点点《ML - 异常点检测》

一些前提的约定,还是沿用上篇文章的哈。先来致敬下男神。
在这里插入图片描述

一:异常点检查(Anomaly Detection)
这一章节相对来说简单很多,也可以说是很大程度是概率论的知识内容了。
异常点,和大部分正常状态下表现上不一致的点,就叫做异常点,举个例子,我们分析统计用户的行为,并提取某个特征,或者一个月内去的次数,和一个月内去网吧的时长,如下图:

在这里插入图片描述
很明显,我们会把红色点的行为定义为不正常的,去的少,上网时间还挺长,看来存在巨大网瘾啊,运用某个模型检测过来,对应到具体人,警察就可以出动强制了,这样及早帮助父母发现并教育孩子,不然父母不知情的情况下很容易出事儿。反而黑色点距离大家很近,看似没啥不一样,大部分的点一样没啥区别,因此暂时先放过。
同样的道理,在工业领域,比如计算机集群的维护中,可以通过某个计算机的CPU,IO,MEM,发热量等特征进行异常值检测。在飞机引擎制造中,也可通过引擎的发热量,引擎的震动等特征进行异常值检测,及时排除质量差的引擎,这可是未来挽救生命的行为啊,所以在很多QA(质量分析)的场景都可以用到这样的模型。

二:高斯分布(Gaussian Distribution)
在概率论中,这个分布也叫做正太分布,也就是正常情况下的分布统计,能体现出一个群体内,大致基本的平均水平,以及该群体内每个样本的总体差异程度。比如一个班级学生的成绩,一个地区人的寿命,身高,财富水平,医疗血压心跳测量(有时候医生让你重新测量,就是觉得你的血压心跳不太正常),往往就是一个正太分布模型,这个不多说,纯属概率知识。
在这里插入图片描述
高斯分布有两个参数,μ和σ,分别表示平均值和标准差。
在这里插入图片描述
μ代表的分布的平均水平,表征了分布规律的中心位置,
σ表征的是样本之间的差异程度,σ越大,差异越大,那么图像就会变得很宽很矮,因为样本很分散,反之差异变得很小,那么分布上就会变得很窄很高,因为样本很集中。

三:参数估计以及异常点检测算法
对于给定某个数据集,{X(1), X(2), X(3)…X(m)}。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
鉴于这一块太简单了,就不做实验了。这里课件看到高斯模型的应用,了解到这个即可。

猜你喜欢

转载自blog.csdn.net/qq_29367075/article/details/108817933