吴恩达-机器学习(9)-异常检测、协同过滤

文章目录

Density Estimation

Problem Motivation
Gaussian Distribution
Algorithm
Building an Anomaly Detection System
Developing and Evaluating an Anomaly Detection System
Anomaly Detection vs. Supervised Learning
Choosing What Features to Use

Multivariate Gaussian Distribution

Multivariate Gaussian Distribution
Anomaly detection using the multivariate Gaussian Distribution

Predicting Movie Ratings

Problem Formulation
Content Based Recommendations

Collaborative Filtering

Collaborative Filtering
Collaborative Filtering Algorithm

Low Rank Matrix Factorization

Vectorization: Low Rank Matrix Factorization
Implementational Detail: Mean Normalization

Density Estimation

Problem Motivation

异常检测：给定m个假定正常的数据集，对x的分布概率建模，建立概率模型之后，对于新的数据概率低于阈值就是异常的

异常检测的应用:

欺诈检测
产品的质量控制
数据中心的计算机监测

Gaussian Distribution

样本出现的概率符合下列公式就是高斯分布，其中 $\sigma$ 是标准差， $\mu$ 是均值

$p(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

Algorithm

独立分布的概率，等于概率的乘积
在异常检测算法中，即使独立的假设不成立，该算法的效果也还可以

异常检测算法步骤：

Building an Anomaly Detection System

Developing and Evaluating an Anomaly Detection System

与监督学习一样，将样本分为三个部分训练集、交叉验证集、测试集，
不同之处在于训练集是无标签的，都是正常的数据，交叉验证集和测试集是有标签的正常的数据和异常的数据均包含

下图就是数据集的分割，第二种方法也可行但不推荐

由于数据样本的不均衡，所以要使用召回率和置信度进行评价算法

Anomaly Detection vs. Supervised Learning

异常检测和监督学习的对比

Anomaly Detection	Supervised Learning
数据具有倾斜性，正的数据较少，负的数据较多	大量的正的和负的数据
很多不同种类的异常数据，任何算法都很难从假设的例子中了解异常是什么样子的，出现的异常可能并没有出现过	充足的正的数据可以让算法了解正的样本是什么样的，未来出现的正的样本很可能是训练集中的

异常检测和监督学习的应用对比

Anomaly Detection	Supervised Learning
欺诈检测	垃圾邮件分类
生产检测	天气预测
数据中心监测机器	癌症检测

Choosing What Features to Use

异常检测是使用高斯模型对特征向量建模，但有些特征不符合高斯分布，虽然算法可以正常运行，但如果对这些
特征进行处理使其符合高斯分布，算法表现会更加好，处理的方法有取对数、开方等

选择特征要选择异常情况下非常大或非常小的特征向量

Multivariate Gaussian Distribution

对于计算机监测的例子：当低CPU占用，高内存占用时，使用上述的异常检测可能将该情况作为正常情况，上述
的异常检测是圆形的，在同一个圆上认为是同一概率，所以要使用多元高斯分布

多元高斯分布不是将特征独立的建模

多元高斯分布的例子
协方差相同，相互独立，与普通高斯分布相同

协方差不同,特征相关

正相关

负相关

扫描二维码关注公众号，回复： 4565860 查看本文章

Anomaly detection using the multivariate Gaussian Distribution

使用多元高斯模型建模

传统高斯模型和多元高斯分布模型的关系协方差矩阵对角线上的值其实就是方差

高斯分布和多元高斯分布对比

Original model	Multivariate Gaussian
当特征相关时需要手动的创建新特征去捕获这种情况	自动寻找特征间的相关性
所需的计算资源少	所需的计算资源多
训练集的数量可以很小	训练集的数量必须大于特征数