Anomaly Detection异常检测

Density Estimation密度估计

Problem Motivation问题动机

异常检测(Anomaly detection)问题是机器学习算法的一个常见应用这种算法的一个有趣之处在于它虽然主要用于非监督学习问题但从某些角度看它又类似于一些监督学习问题

什么是异常检测呢？飞机引擎制造商生产的飞机引擎从生产线上流出时需要进行 QA (质量控制测试) 而作为这个测试的一部分你测量了飞机引擎的一些特征变量比如你可能测量了引擎运转时产生的热量或者引擎的振动等等这样你就有了一个数据集从x(1)到x(m) 如果你生产了m个引擎的话也许你会将这些数据绘制成图表看起来就是这个样子这里的每个点每个叉都是你的无标签数据

这样异常检测问题可以定义为对于生产线上流出的一个新的飞机引擎有特征变量x-test 那么这个新的飞机引擎是否有某种异常如果你的新引擎对应的点落在中间的那个绿叉我们可以直接认为它是正常的如果你的新飞机引擎对应的点落在外面那个绿叉那么我们可以认为这是一个异常需要进一步检测

异常检测问题：我们有一些数据从x(1)到x(m) 我们通常假定这m个样本都是正常的或者说都不是异常的然后我们需要一个算法来告诉我们一个新的样本数据x-test是否是异常我们要采取的方法是给定训练集给定无标签的训练集我们将对数据建一个模型p(x) 也就是说我们将对 x的分布概率建模其中x是这些特征变量建立了x的概率模型之后对于新的x-test 如果概率p 低于阈值ε 那么就将其标记为异常

给定图中的这个训练集如果你建立了一个模型p(x) 将会认为在中心区域的这些点有很大的概率值而稍微远离中心区域的点概率会小一些

Gaussian Distribution高斯分布

高斯分布也称为正态分布

如果x的概率分布服从高斯分布其中均值为μ 方差为σ平方 σ也叫标准差波浪号读作服从...分布为了表示高斯分布大写字母N表示 Normal (正态) 因为高斯分布就是正态分布其中μ控制曲线的中心位置 σ控制曲线的宽度因为这是一个概率分布因此曲线下的面积这些阴影区域的积分一定是1 所以当σ越小的时候，曲线的峰值就越高

让我们来看参数估计问题

这里有一个数据集其中有m个样本从x(1)到x(m) 假设他们都是实数我们猜测这些样本来自一个高斯分布的总体那么我们就要确定参数 μ和σ平方图中写下对μ和σ平方进行参数估计的标准公式这里的估计实际就是对μ和σ平方的极大似然估计

Algorithm算法

应用高斯分布开发异常检测算法

假如说我们有一个无标签的训练集共有 m 个训练样本并且这里的训练集里的每一个样本都是 n 维的特征

现在我们解决异常检测的方法是我们要从数据中建立一个 p(x) 概率模型如图所示这个式子实际上对应于一个从 x1 到 xn 上的独立的假设但实际中无论这些特征是否独立这个算法的效果也还不错

估计 p(x) 的分布问题被称为 密度估计问题 把所有的结合起来下面便是我们的异常检测算法

第一步选择特征即找出我们认为的具有比较反常样本的特征 xi

第二步给出一组 m 个无标签数据构成的训练集计算出期望 μ1 到 μn 以及方差值 (σ1)^2 到 (σn)^2

最后当给出一个新样本时判断新样本是否出现异常就要计算出 p(x) 的值来如果这个概率值很小那么你就将这一项标注为异常

以上是一个异常检测的实例假如说我们有一系列数据如左上角绘制的数据集并估算出两个特征值x1和x2的高斯分布公式左下角绘制 p(x) 的图像也就是这两个概率值的乘积然后我们选取选ε (后面会讲到这个值如何选取)的值为0.02，那么当给出一个新样本时，我们就能计算出p(x(1)test) 来判断它是否异常了

Building an Anomaly Detection System建立一个异常检测系统

Developing and Evaluating an Anomaly Detection System开发和评估一个异常检测系统

为了更快地开发出一个异常检测系统那么最好能找到某种评价异常检测系统的方法

为了做到这一点为了能评价一个异常检测系统我们先假定已有了一些带标签的数据所以我们要考虑的异常检测问题是一个非监督问题使用的是无标签数据但如果你有一些带标签的数据能够指明哪些是异常样本哪些是非异常样本那么这就是我们要找的能够评价异常检测算法的标准方法

以飞机发动机的为例现在有了一些带标签数据也就是有异常的飞机引擎的样本同时我们还有一些无异常的样本我用 y=0 来表示那些完全没有问题的样本用 y=1 来代表那些异常样本

那么异常检测算法的推导和评价方法我们先只考虑训练样本我们将它们看成无标签的训练集所以他们都是无异常样本的集合 (可能有一些异常的也被分到你的训练集里这也没关系) 接下来我们要定义交叉验证集和测试集通过这两个集合我们将得到异常检测算法具体来说对交叉验证集和测试集我们将假设我们的交叉验证集和测试集中有一些异常的样本

假如说我们有10000制造的无异常的引擎我们假设这10000个样本中大多数都是好的没有问题的引擎我们把这10000个正常的引擎放6000个到无标签的训练集中我叫它“无标签训练集” 但其实所有这些样本实际上都对应 y=0的情况我们要用它们来拟合p(x) 也就是p(x1;μ1,σ1^2)的平方一直到p(xn; μn, σn^2) 参数是μn σn的平方因此我们就是要用这 6000个样本来估计参数 μ1, σ1 一直到 μn, σn 这就是训练集中的好的样本或者说大多数好的样本然后我们把这10000个正常的引擎的剩下的4000 各放2000个到交叉验证集和测试集中同时我们还有20个异常的发动机样本同样也把它们进行一个分割放10个到验证集中剩下10个放入测试集中坏的引擎样本我们只把它们放到交叉验证集和测试集中

异常检测算法的推导和评估方法如下首先我们使用训练样本来拟合模型p(x) 然后假定你的异常检测算法作出了预测所以给出交叉验证集或者测试集给出某个测试样本x 假设这个算法对 p(x)<ε 的情况作出的预测为 y=1 而p(x)≥ε时算法作出的预测为 y=0

怎样评估一个异常检测算法呢？第一步是取出所有的无标签的训练样本拟合出模型p(x) 也就是用所有这些高斯模型拟合出参数接下来对交叉验证集和测试集我们要让异常检测算法来对y的值作出一个预测所以现在我们可以把异常检测算法想成是对交叉验证集和测试集中的y 进行一个预测

那么用什么评价度量好呢？因为数据是非常偏斜的因为y=0是更加常见的因此分类准确度不是一个好的度量法取而代之的我们应该算出真阳性、假阳性、假阴性和真阴性的比率来作为评价度量值我们也可以算出查准率和召回率或者算出 F1-积分通过一个很简单的数字来总结出查准和召回的大小通过这些方法你就可以评价你的异常检测算法在交叉验证和测试集样本中的表现

当我们需要作出决定时比如要包括哪些特征或者说要确定参数ε取多大合适我们就可以不断地用交叉验证集来评价这个算法然后决定我们应该用哪些特征怎样选择ε

Anomaly Detection vs. Supervised Learning异常检测与监督学习

我们有了这些带标签的数据其中一些我们知道是异常的另外一些是正常的那我们为什么我们不直接用监督学习的方法呢？为什么不直接用逻辑回归或者神经网络的方法来直接学习这些带标签的数据从而给出预测 y=1 或 y=0 呢？

这张幻灯片展示的就是什么时候应该用异常检测什么时候用监督学习更加有效两种情况的一个比较

下面的情况考虑使用异常检测算法

1.有大量的负样本也就是正常样本很少的正样本

2.对异常检测算法通常会有很多种不同的异常的种类比如飞机引擎的例子很多部件坏了都可能导致引擎故障你只有很少的一组正样本那么一个学习算法要从你这么少的正样本中学习出这个异常是比较困难的而且有一天新增一种全新的引擎故障原因那么这更加说明你应该对负样本进行建模学出 p(x) 模型(高斯模型) 而不是很费力地对正样本进行建模

下面的情况考虑使用监督学习算法

1.我们的正负样本数量都应该比较大

以下是监督学习和异常检测的举例

Choosing What features to Use特征值选择

在我们的异常检测算法中我们做的事情之一就是使用这种正态(高斯)分布来对特征向量建模

首先画出这些数据可以用直方图表示数据以确保这些数据在应用我的异常检测算法前看起来像高斯分布当然即使你的数据并不是高斯分布它也基本上可以良好地运行画柱状图的方法是 Octave 里面的 hist 命令（默认情况下直方图有十个柱）如果我画出来的直方图是左下角这样的话可以对数据进行一些不同的转换(例如对数的转换) 来确保这些数据看起来更像高斯分布虽然通常来说你不这么做算法也会运行地很好但如果你使用一些转换方法使你的数据更像高斯分布的话你的算法会工作得更好除了取对数变换之外还有别的一些方法也可以用如上图所示

如何得到异常检测算法的特征变量？

我们先完整地训练出一个学习算法然后在一组交叉验证集上运行算法然后找出那些预测出错的样本然后再看看我们能否找到一些其他的特征变量来帮助学习算法让它在那些交叉验证时判断出错的样本中表现更好

举例：

在异常检测中我们希望 p(x) 的值对正常样本来说是比较大的而对异常样本来说值是很小的

假如我的数据拟合出的高斯分布是这样的假如我的异常样本中 x 的取值为2.5(绿色) 因此我画出我的异常样本它看起来就像被淹没在一堆正常样本中似的它的概率值很大而我们的算法没能把这个样本判断为异常

现在如果说这代表飞机引擎的制造或者别的什么那么我会做的是我会看看我的训练样本然后看看到底是哪一个具体的飞机引擎出错了看看通过这个样本能不能启发我想出一个新的特征 x2 来帮助算法区别出不好的样本和我剩下的正确的样本也就是那些红色的叉叉如上图所示绿色叉叉的那个样本的x1正常，而x2异常，我们需要找出这个特征变量x2

通常来说我想到的选择特征变量的方法是选那些取值既不会特别特别大也不会特别特别小的那些特征变量比如说数据中心中监控计算机的例子你有很多台电脑也许上千或者上万台我们想要知道的是是不是有哪一台机器运作不正常了这里给出了几种可选的特征变量包括占用内存磁盘每秒访问次数 CPU负载网络流量现在假如说我怀疑某个出错的情况我认为在我的数据中我的CPU负载和网络流量应该互为线性关系假如说我怀疑其中一个出错的情形是我的计算机在执行一个任务时进入了一个死循环因此被卡住了因此CPU负载升高在这种情况下要检测出异常我可以新建一个特征 x5 等于 CPU负载除以网络流量

你可以通过不同特征变量的组合捕捉到对应的不寻常现象

Multivariate Gaussian Distribution(Optimal)多元高斯分布

Multivariate Gaussian Distribution多元高斯分布

假设我们的没有标签的数据看起来像这张图一样使用数据中心的监控机的例子我的两个特征变量 x1 是 CPU 的负载和 x2 是内存使用量把 x1 和 x2 当做高斯分布来建模如右图所示这就是异常检测算法的特征变量建模

现在假如说在测试集中有一个这样的样本 (绿色叉) 它离这里看到的任何数据都很远应该被当做一个异常数据所以我的好的样本的数据看起来 CPU 负载和内存使用量是彼此线性增长的关系
对于异常检测算法会怎么做如图右所示绿色叉的x1和x2都属于比较正常的范畴所以异常检测算法不会将这个点标记为异常它不能察觉到这个蓝色椭圆所表示的好样本概率高的范围而只能看到图左红色圆的范围

为了解决这个问题我们使用多元高斯分布或者多元正态分布

所以这是我们要做的我们有特征 x 它是 n 维实数我们不要把 p(x1) p(x2) 分开而要建立一个 p(x) 整体的模型就是一次性建立 p(x) 的模型

多元高斯分布的参数包括向量 µ 和一个 n×n 的协方差矩阵Σ det(Sigma) 是Octave中计算行列式的方法

我们来看一个二维的例子我们来看一个二维的例子如果我有 n 等于 2 两个特征 x1 和 x2 以下是µ 和Σ 发生变化时对高斯分布的影响

多元高斯分布的一个很棒的事情是你可以用它给数据的相关性建立模型通过改变协方差矩阵非对角线上的元素

这就是多元高斯分布所能描述的概率分布是什么样的它最重要的优势就是它可以让你能够描述当两个特征变量之间可能存在正相关或者是负相关关系的情况

Anomaly Detection Using the Multivariate Gaussian Distribution利用多元高斯分布进行异常检测

使用多元高斯分布来开发另一种异常检测算法

关于参数拟合问题如果我有一组样本从 x(1) 到 x(m) 这里的每一个样本都是 n 维向量而且我认为它们服从多元高斯分布我应该怎么估计参数 µ 和 Σ 呢？估计它们的标准公式如上图所示用训练集计算出 µ 和 Σ 以后当拿到一个测试样本我们就可以用上面的多元高斯分布的公式计算出p(x)了然后和 ε比较来判断是否异常

多元高斯分布模型和原来的模型之间的关系

p(x) 原来的模型是 p(x1) 乘以 p(x2) 一直乘到 p(xn) 的积

事实上原来的模型对应于一种多元高斯分布它的等高线全部都是沿着轴向的也就是沿着 x1 x2 轴如上一节的前三个图原来的模型实际上和多元高斯分布一样只是有一个约束这个约束是协方差矩阵 Σ 必须满足非对角线的元素为0

具体来说协方差矩阵 Σ 主对角线上的值分别为 σ1^2 σ2^2 一直到 σn^2 其他元素全是0 将这个值代入到多元高斯分布公式你回发现两个模型其实是完全一样的

所以你应该在什么时候用哪个模型呢？

原来的模型可能使用得更加频繁而多元高斯模型则没有那么常用但是它有能够捕捉特征变量之间的相关性的优势但是原来的模型也有一些其他的很重要的优势其中一个很大的优势就是它的运算量更小它更适用于 n 的值非常大就是说特征变量很多的情况最后对于原来的模型事实上即使你的训练集相对较小它也能运行得还可以而对于多元高斯模型这个算法的数学性质要求你的 m 必须大于 n 所以样本的数量要大于特征变量的数量 (原因是，Σ会是个奇异矩阵，不可逆一般我们要求m 大于等于十倍的 n )

所以在实际应用当中原来的模型比较常用如果你觉得你需要捕捉特征变量之间的相关性一般就会手动增加额外特征变量来捕捉特定的不正常的值的组合但是在m 很大 n 不太大的情况下那么多元高斯模型是值得考虑得或许可以运行得更好还可以帮你省去捕捉额外特征变量所花费的时间

Σ不可逆的时候可能因为有可能有很多线性相关的冗余的特征变量

Recommender Systems推荐系统

Predicting Movie Ratings预测电影评级

Problem Formulation问题表述

推荐系统的问题表述

我这里有5部电影《爱到最后》《浪漫永远》《小爱犬》《无尽狂飙》还有《剑与空手道》我们有4位用户名叫 Alice Bob Carol 和 Dave 首字母为A B C和D 我们称他们用户1 2 3和4

Alice 她非常喜欢《爱到最后》把它评为5颗星她还喜欢《浪漫永远》也把它评为5颗星她没看过《小爱犬》也就没评分这样我们没有这个评分数据 Alice 很不喜欢《无尽狂飙》或是《剑与空手道》 ...

用 n_u 表示用户数量 n_m 将用来表示电影数量 r(i, j) 表示用户 i 是否给电影 j 评过分 y(i, j) 它表示用户 j 给电影 i 的评分

推荐系统问题就是给定这些 r(i, j) 和 y(i, j) 数值然后浏览全部数据关注所有没有电影评分的地方并试图预测这些带问号的地方应该是什么数值

Content Based Recommendations基于内容的建议

我们假设每部电影有两种特征分别用x1和x2表示 x1表示这部电影属于爱情电影的程度 x2表示这部电影是动作电影的程度

为了进行预测我们可以把对每个观众打分的预测当成一个独立的线性回归问题具体来说比如每一个用户j 我们都学习出一个参数θ(j)
我们来看一个具体的例子吧现在假如我们想预测 Alice对电影《小爱犬》是如何评价的那么这部电影有一个参数向量x(3)等于[1 0.99 0] 其中1是截距项然后是两个特征 0.99和0 假如说对于这个例子你已经知道Alice的参数向量θ(1) 它的值等于 [0 5 0] 因此我们对这一项的预测就等于θ(1)的转置乘以x(3) 因此我对这个值的预测其结果将为4.95

我们用r(i,j)=1 来表示用户j 对电影i进行了评分 y(i,j)则表示用户j 对电影i的评分值
我们用m(j) 来表示用户j评价过的电影数

我们的优化目标如上

J是我们要最小化的最优化目标函数接下来为了求出这个最小值如果你想要用梯度下降来更新的话你可能会用到这些式子

你也可以用在更高级的优化算法比如聚类下降或者L-BFGS(Limited-memory Broyden–Fletcher–Goldfarb–Shanno Algorithm) 或者别的方法来最小化代价函数J

Collaborative Filtering协作过滤

一种构建推荐系统的方法叫做协同过滤(collaborative filtering) 这种算法能够自行学习所要使用的特征

我们建一个数据集假定对每一部电影我们找一些人来告诉我们这部电影浪漫指数是多少动作指数是多少这样做难度很大也很花费时间而且通常你还会希望得到除这两个特征之外的其他指数那么你怎样才能得到这些特征呢？

所以让我们转移一下问题假如我们有某一个数据集我们并不知道特征的值是多少所以比如我们得到一些关于电影的数据不同用户对电影的评分我们并不知道每部电影到底有多少浪漫的成分也不知道到底每部电影里面动作成分是多少于是我把所有的问题都打上问号

现在我们稍稍改变一下这个假设假设我们采访了每一位用户而且每一位用户都告诉我们他们是否喜欢爱情电影以及他们是否喜欢动作电影这样 Alice 就有了对应的参数 θ(1) Bob 的是 θ(2) Carol 的是 θ(3) Dave 的是 θ(4) 我们还有这样的假设假如 Alice 告诉我们她十分喜欢爱情电影于是 Alice 的特征 x1 对应的值就是5 假设 Alice 告诉我们她非常不喜欢动作电影于是这一个特征就是0 于是我们假定某种程度上我们就可以着眼于用户看看任意的用户 j 对应的 θ(j) 是怎样的这样就明确地告诉了我们他们对不同题材电影的喜欢程度

如果我们能够从用户那里得到这些 θ 参考值那么我们理论上就能推测出每部电影的 x1 以及 x2 的值

我们来看个例子假如我们看电影1 《爱到最后》假设我们不知道这部电影的主要内容所以也不要在意电影的名字我们知道的就是 Alice 喜欢这部电影 Bob 喜欢这部电影 Carol 和 Dave 不喜欢它我们可以推断这可能是一部爱情片而不太可能是动作片

特征向量 x(1) 应该是什么才能让 θ(1) 的转置乘以x(1) 约等于5 也就是 Alice 的评分值然后 θ(2) 的转置乘以 x(1) 也近似于5 而 θ(3) 的转置乘以 x(1) 约等于0 这是 Carol 的评分而 θ(4) 的转置乘以 x(1) 也约等于0 由此可知 x(1) 应该用 [1 1.0 0.0] 这个向量表示第一个1 是截距项这样才能得出 Alice Bob Carol 和 Dave 四个人对电影评分的结果

由此及之我们可以继续列举试着弄明白其他电影的合理特征

让我们将这一学习问题标准化到任意特征 x(i) 假设我们的用户告诉了我们的偏好就是说用户们已经给我们提供了 θ(1) 到 θ(nu) 的值而我们想知道电影 i 的特征向量 x(i) 我们能做的是列出以下的最优化的问题

这就是我们如何从一部特定的电影中学习到特征的方法

但我们要做的是学习出所有电影的所有特征所以我现在要做的是在此加上另外的一个求和然后最小化整个这个目标函数针对所有的电影这样你就会得到图下的最优化的问题如果你将这个最小化就应该能得到所有电影的一系列合理的特征

如果我们能知道 θ 就能学习到 x 如果我们知道 x 也会学出 θ 来那么随机猜 θ 的值学习出不同电影的特征给出已有的一些电影的原始特征然后我们可以继续迭代不停重复优化θ x θ x θ 这非常有效如果你这样做的话你的算法将会收敛到一组合理的电影的特征以及一组对合理的对不同用户参数的估计这就是基本的协同过滤算法

这实际并不是最后我们将要使用的算法下一节我们将改进这个算法让其在计算时更为高效

协同过滤算法指的是当你执行这个算法时你通过一大堆用户得到的数据这些用户实际上在高效地进行了协同合作来得到每个人对电影的评分值只要用户对某几部电影进行评分每个用户就都在帮助算法更好的学习出特征这样通过自己对几部电影评分之后我就能帮助系统更好的学习到特征这些特征可以被系统运用为其他人做出更准确的电影预测协同的另一层意思是说每位用户都在为了大家的利益学习出更好的特征这就是协同过滤

Collaborative Filtering Algorithm协作过滤算法

首先如果给你几个特征表示电影我们可以使用这些资料去获得用户的参数数据第二如果给你用户的参数数据你可以使用这些资料去获得电影的特征我们将会使用这些概念并且将它们合并成 协同过滤算法 (Collaborative Filtering Algorithm)

我们之前做过的事情其中之一是假如你有了电影的特征你就可以解出这个最小化问题为你的用户找到参数 θ 然后我们也知道了如果你拥有参数 θ 你也可以用该参数通过解一个最小化问题去计算出特征 x 所以你可以做的事是不停地重复这些计算或许是随机地初始化这些参数然后解出 θ 解出 x 解出 θ 解出 x 但实际上呢存在一个更有效率的算法让我们不再需要再这样不停地计算 x 和 θ 而是能够将 x 和 θ 同时计算出来

上图的下面就是这种算法我们所要做的是将这两个优化目标函数给合为一个所以我要来定义这个新的优化目标函数 J 它依然是一个代价函数是我特征 x 和参数 θ 的函数它其实就是上面那两个优化目标函数但我将它们给合在一起 (注意：这里没有截距项x0和θ0)

首先我们将会把 x 和 θ 初始为小的随机值
接下来用梯度下降或者某些其他的高级优化算法把这个代价函数最小化
梯度下降法的更新式如上这公式里 x 和 θ 都是n 维
最后给你一个用户如果这个用户具有一些参数 θ 以及给你一部电影带有已知的特征 x 我们可以预测这部电影会被 θ 转置乘以 x 给出怎样的评分

Low Rank Matrix Factorization低秩矩阵分解

Vectorization: Low Rank Matrix Factorization矢量化：低秩矩阵分解

举例：一位用户最近看上一件产品有没有其它相关的产品你可以推荐给他

我将要做的是实现一种选择的方法写出协同过滤算法的预测情况

首先将这些用户的电影评分进行分组并存到一个矩阵Y中 y(i, j) 是用户 j 对电影 i 给出的评分其值等于 θ(j)转置乘x(i)

为了能有一个向量化的方法以计算这些矩阵的预测值你可以计算大写X矩阵乘大写Θ矩阵的转置这样就给出了一种向量化的方法以计算这个矩阵

我们用的这个协同过滤算法还有另外一个名字我们现在正在使用的这个算法也被称作是低秩矩阵分解

当你学习某个特征其实并不需要知道这些不同的特征将会变成什么样的但如果你运行这个算法这些特征将会完美地捕获实践中这些特征是很难以可视化的也很难计算出这些特征到底是什么通常来说特征学习对于捕获哪些是电影的重要或显著的属性是很有意义的也正是这样才有了你对某些电影的喜欢或不喜欢

现在你已经对特征参数向量进行了学习那么我们就会有一个很方便的方法来度量两部电影之间的相似性例如说电影i有一个特征向量x(i) 你是否能找到一部不同的电影 j 保证两部电影的特征向量之间的距离x(i)和x(j)很小那就能很有力地表明电影 i 和电影 j 在某种程度上有相似至少在某种意义上某些人喜欢电影 i 或许更有可能也对电影 j 感兴趣

Implementational Detail: Mean Normalization实现细节：均值标准化

为了了解均值归一化这个想法的动机我们考虑这样一个例子有一个用户没有给任何电影评分之前我们有四个用户 Alice Bob Carol 和 Dave 我现在加上了第五个用户 Eve 她没有给任何电影评分假如说 n 等于2 我们要学习出一个参数向量θ(5) 这是一个二维向量

这个优化目标的第一项用户 Eve 没给任何电影打过分所以r(i,j)=0 所以第一项完全不影响 θ(5) 的值影响 θ(5) 值的唯一一项是第三项这就是说我们想选一个向量 θ(5) 使得λ/2[(θ(5)_1)^2+(θ(5)_2)^2]最小那么你最终得到的就会是 θ(5)=[0;0] 因此我们得到的结果是我们会预测 Eve 给所有电影的评分都是零星但是这个结果看起来并没什么用这样我们还是没有任何好方法来把电影推荐给她

均值归一化的想法可以让我们解决这个问题下面介绍它是如果工作的

和以前一样我们把所有评分放到矩阵Y里然后实现均值归一化计算每个电影所得评分的均值存在一个向量µ中然后把所有的电影评分减去平均评分这些问号没变所以每个电影在新矩阵Y中的平均评分都是0 然后对新的Y使用协同过滤算法来学习我的参数 θ(j) 和特征变量 x(i)

当我想要做电影评分预测时对用户j对电影i的评分我要预测它为 θ(j) 转置乘以 x(i) (其中 x 和 θ 都是均值归一化的数据集中学习出的参数 )但是因为我已经对数据集减去了均值所以为了给电影i预测评分我要把这个均值加回来

如果 Eve 没给任何电影评分我们就对这个新用户 Eve 一无所知我们要做的就是预测她对每个电影的评分就是这些电影所得的平均评分

最后再补充一下如果有些电影是没有评分的这个情形类似于有的用户没有给任何电影评分的情况你可以对不同的列进行归一化使得它们的均值为0

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第9周学习笔记

Anomaly Detection异常检测

Density Estimation密度估计

Problem Motivation问题动机

Gaussian Distribution高斯分布

Algorithm算法

Building an Anomaly Detection System建立一个异常检测系统

Developing and Evaluating an Anomaly Detection System开发和评估一个异常检测系统

Anomaly Detection vs. Supervised Learning异常检测与监督学习

Choosing What features to Use特征值选择

Multivariate Gaussian Distribution(Optimal)多元高斯分布

Multivariate Gaussian Distribution多元高斯分布

Anomaly Detection Using the Multivariate Gaussian Distribution利用多元高斯分布进行异常检测

Recommender Systems推荐系统

Predicting Movie Ratings预测电影评级

Problem Formulation问题表述

Content Based Recommendations基于内容的建议

Collaborative Filtering协作过滤

Collaborative Filtering协作过滤

Collaborative Filtering Algorithm协作过滤算法

Low Rank Matrix Factorization低秩矩阵分解

Vectorization: Low Rank Matrix Factorization矢量化：低秩矩阵分解

Implementational Detail: Mean Normalization实现细节：均值标准化

猜你喜欢