机器学习 - 无监督学习-多元高斯模型

(一)异常检测---基于高斯(正态)分布

m个训练样本,每个样本有n个features

即m个样本的每个属性集都呈现高斯分布,因此有以下计算:

例子如下:

(二)评价异常检测系统

将所有数据按照60%,20%,20%的比例分成三部分,分别为training set、cross validation set和test set.

例子如下:

评价既然采用召回率、准确率和F1值,同时,可以基于CV选择一个合适的异常参数

(三)异常检测和监督学习的区别

(1)      异常检测算法具有少量的异常样本和大量的正常样本,而监督学习算法有大量的positive和negative样本。

(2)      异常检测有很多的异常类型,一般的算法很难通过少量的异常样本学习到多有的异常类型,而监督学习算法有足量的正样本和负样本,能够让算法学习到各个样本的特征。

(3)      异常检测中未来还可能出现许多新类型的异常。

(4)      异常检测算法用于诈骗识别,工业零件问题检测等,监督学习算法用于垃圾邮件的分类,天气预报和癌症检测等

(四)异常检测的参数选取

问题1:样本数据的某些属性可能不呈现高斯分布

解决方案:通过数学变换(log,开根号,平方等)使之呈现高斯分布。

问题2:如何选取有用的features

方法:观察已有的属性分布,画出高斯分布图形,观察到有些异常样本被正常样本包围,思考原因,这时,可以试着添加一个新的feature,这个新的feature能够将异常样本从正常样本中区分开。对每个不能被区分的样本进行同样的思考,这样就有了能够将的所有异常样本区分来的features.

一个例子,如当x1,x2,x,x4不能将异常的computers从一个data center中区分开时,可以试图添加x5,x6属性,使之区分开。新添加的属性可以是已有属性的数学组合。

(五)多元高斯分布

将所有的features为轴定义为一个n为空间的高斯分布,其中均值是一个1*n的矩阵,标差是一个n*n的矩阵。

一些例子如下:

(六)使用多元高斯分布的异常检测

1、均值和方差的选取:

2、多远高斯分布的异常检测模型和一般高斯分布的异常模型的使用区别

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011470552/article/details/54863529

猜你喜欢

转载自blog.csdn.net/u012968002/article/details/81913078