Unsupervised Learning非监督学习

Clustering聚类

K-Means Algorithm K均值算法

在聚类问题中我们有未加标签的数据我们希望有一个算法能够自动的把这些数据分成有紧密关系的子集或是簇 K均值 (K-means) 算法是现在最为广泛使用的聚类方法

如图所示现在我有一些没加标签的数据而我想将这些数据分成两个簇现在我执行K均值算法方法是这样的首先我随机选择两个点这两个点叫做聚类中心 (cluster centroids) 就是图上边的两个叉这两个就是聚类中心为什么要两个点呢因为我希望聚出两个类 K均值是一个迭代方法它要做两件事情第一个是簇分配第二个是移动聚类中心

图一：随机选择两个点，这两个点就是聚类中心（红叉和蓝叉）

图二：遍历所有的样本然后依据每一个样本是更接近红叉还是蓝叉来将每个样本点分配到两个不同的聚类中心中

图三：移动聚类中心到和它一样颜色的那堆点的均值处

图四：重复迭代图一到图三，直到聚类中心的位置不再变化表示K均值方法已经收敛了

K均值算法接受两个输入第一个是参数K 表示你想从数据中聚类出的簇的个数另一个是只有 x 的没有标签 y 的训练集

在非监督学习的 K均值算法里我们约定 x(i) 是一个n维向量这就是训练样本是 n 维而不是 n+1 维

K均值算法

扫描二维码关注公众号，回复： 3103581 查看本文章

第一步随机初始化 K 个聚类中心记作 μ1, μ2 一直到 μk

第二步 K均值的内部循环

首先对于每个训练样本我们用变量 c(i) 表示 K个聚类中心中最接近 x(i) 的那个中心的下标这就是簇分配 所以 c(i) 是一个在1到 K 之间的数小写的 k 则是不同的中心的下标

其次计算分配给每个聚类中心的那些点的均值（如果聚类中心没有分配到任何样本点，就将它移除，则K减小）将K个聚类中心μk分别移动到分配给它的那些点的均值处

第三步迭代第二步直到收敛

事实是 K均值经常会用于一些这样的数据看起来并没有很好的分来的几个簇这是一个应用的例子关于T恤的大小

Optimization Objective优化目标

事实上 K均值也有一个优化目标函数或者需要最小化的代价函数

首先了解什么是 K均值的优化目标函数这将能帮助我们调试学习算法确保K均值算法是在正确运行中第二个也是最重要的一个目的是我们该怎样运用这个来帮助K均值找到更好的簇并且避免局部最优解

当K均值正在运行时我们将对两组变量进行跟踪 c(i) 和 μk

以下便是 K均值算法需要最小化的代价函数 J 参数是 c(1) 到 c(m) 以及 μ1 到 μk 随着算法的执行过程这些参数将不断变化

K均值算法要做的事情就是找到能够最小化代价函数 J 的 c 和 μ 这个代价函数在K均值算法中有时候也叫做 失真代价函数(distortion cost function)

第一步要做的其实不是改变聚类中心的位置而是选择 c(1) c(2) 一直到 c(m) 来最小化这个代价函数 J

第二步聚类中心的的移动这一步是选择了能够最小化 J 的 μ 的值

因此 K均值算法实际上是把这两组变量在这两部分中分割开来考虑分别最小化 J 首先是 c 作为变量然后是 μ 作为变量那么 K均值的工作就是首先关于 c 求 J 的最小值然后关于 μ 求 J 的最小值然后反复循环这就是 K均值算法

Random Initialization随机初始化

如何初始化 K均值聚类方法

如何避开局部最优来构建K均值聚类方法

效果最好的一种方法是随机挑选K个训练样本然后设定μ1 到μk让它们等于这个K个样本

通过上图发现 μk选择不同时最终可能会得到不同的结果还有可能落在局部最优解

对于上面的问题我们能做的是尝试多次随机的初始化而不是仅仅初始化一次K均值方法就希望它会得到很好的结果

假如我决定运行 K均值方法一百次这是一个相当典型的次数数字有时会是从50到1000之间在所有这100种用于聚类的方法中选取能够给我们代价最小的一个给我们最低畸变值的一个

事实证明如果你运行K均值方法时所用的聚类数相当小从 2到10之间的任何数的话做多次的随机初始化通常能够保证你能有一个较好的局部最优解保证你能找到更好的聚类数据但是如果K非常大的话如果 K比10大很多比如成百上千个聚类那么多种随机初始化就不太可能会有太大的影响但是尽管你有很多聚类数目随机初始化还是会给K均值方法一个合理的起始点来开始并找到一个好的聚类结果

Choosing the Number of Clusters选择聚类的个数

关于选择聚类数目其实并没有非常标准的解答最常用的方法仍然是通过看可视化的图或者看聚类算法的输出结果或者其他一些东西来手动地决定聚类的数目

对于同一个数据集，每个人看到的聚类数目会不一样，而且并没有标准的答案

一个叫做 肘部法则 (Elbow Method) 的方法我们所需要做的是改变K的值也就是聚类类别的总数然后计算代价函数 J 并将其画在出来，计算不同的K值时的代价函数J时我们可以用多个随机的初始聚类中心计算

这里看起来是一个很清楚的肘点你会发现这样一种模式 K从1变化到2 再从2到3时畸变值迅速下降然后在3的时候到达一个肘点此后畸变值就下降得非常慢这样看起来也许使用3个类是聚类数目的正确选择那么我们就选K等于3

事实上肘部法则并不那么常用其中一个原因是如果你把这种方法用到一个聚类问题上你最后得到的曲线类似于右边这样没有一个清晰的肘点而畸变值像是连续下降的因此你还是没法很好的选择K值但是肘部法则还是一个值得尝试的方法但是不要抱太多的期待

最后决定聚类数量的更好的办法是看不同的聚类数量能为后续下游的目的提供多好的结果比如选择T恤尺寸，是K=3(大中小号)还是K=5(加小，小，中，大，特大号)，就看你是出于什么目的，比如想满足更多用户的需求，还是盈利更多，还是...

总结：大部分时候聚类数目仍然是通过手动人工输入或我们的洞察力来决定一种可以尝试的方法是使用肘部法则使用肘部法则但是我不会总是期望它能表现得好我想选择聚类数目的更好方法是去问一下你运行K-均值聚类是为了什么目的？

Motivation

Motivation I: Data Compression

第二种无监督学习问题它叫维数约减 (dimensionality reduction)

使用维数约简的原因有以下几个

数据压缩占用更少的计算机内存和硬盘空间还能给算法提速

什么是维数约减

举一个例子假如我们有一个有很多很多很多特征变量的数据集我在这里只画了其中两个假设我们不知道这两个特征量一个某个物体的长度以厘米为单位另一个 x2 是它以英寸为单位的长度所以这是一个非常冗余的数据我们应该把这个数据降到一维这些样本没有完美地在一条直线上就是因为取整所造成的误差

如果你有上百或者上千的特征变量很容易就会忘记你到底有什么特征变量而且有时候可能有几个不同的工程师团队一队工程师可能给你 200个特征变量第二队工程师可能再给你 300个特征变量然后第三队工程师给你五百个特征变量所以你一共有1000个特征变量这样就很难搞清哪个队给了你什么特征变量实际上得到这样冗余的特征变量并不难

左图展示了一个把数据从 2D 降到 1D 的例子右图是把数据从三维 3D 降到二维 2D 的例子

我们通过把所有原始的样本映射到这条绿线上来近似原始的数据集那么我就只需要一个数字来确定这条线上一个点的位置这样一来在把所有训练样本映射到这条绿线上之后我就能只用一个数字来表示每个训练样本的位置

在更典型的维数约减例子中我们可能有1000维的数据想降低到100维但是因为能画的图是有限制的所以用 3D 到 2D 来讲述

Jun:如果数据能从3D 降到 2D，那么从某一个角度去看，所有的点都会在一个平面上，而这个平面就是我们要得的2D平面

Motivation II: Visualization

通过数据降维来可视化数据

假如我们已经收集了大量的统计数据集有关全世界不同国家的或许第一个特征x1 国内生产总值 x2是一个百分比每人占有GDP x3 人类发展指数 x4 预期寿命 x5 x6 等其它特征我们也许会有大量的数据集像这里这样的数据对于每个国家可能有50个特征我们有这样的众多国家的数据集

那么有没有办法使得我们能更好地来理解数据这里我给出了一张有数字的表格你怎样将这些数据可视化如果有50个特征绘制一幅50维度的图是异常困难的那有没有观察数据的好办法呢？

使用降维的方法那么应该怎么做呢？我们可以提出一种不同的特征表示方法使用一个二维的向量z来代替x 从某种程度来说这两个数总结了50个数

也许我们可以使用这两个数来绘制出这些国家的二维图使用这样的方法尝试去理解二维空间下不同国家在不同特征的差异更容易所以这里你能做的是将数据降维从50维度的数据降维到2维度这样你就可以绘制出 2D的图像了

当你这么做时你会发现如果你仔细观察降维算法的输出结果它通常不能赋予你想要的这些二维新特征一个物理含义你应该能想来这经常取决于我们计算出的特征含义

Principal Component Analysis

Principal Component Analysis Problem Formulation

对于降维问题来说目前最流行最常用的算法是 主成分分析法 (Principal Componet Analysis, PCA）

假设我们有这样的一个数据集这个数据集含有二维实数空间内的样本X 假设我想对数据进行降维从二维降到一维也就是说我想找到一条直线将数据投影到这条直线上那怎么找到一条好的直线来投影这些数据呢？

PCA 所做的就是寻找一个低维的面数据投射在上面使得这些蓝色小线段的平方和达到最小值这些蓝色线段的长度时常被叫做 投影误差 在应用PCA之前通常的做法是先进行均值归一化和特征规范化

PCA 的目标是如果我们将数据从二维降到一维的话我们将试着寻找一个属于n维空间中的向量u(i) 在这个例子我们将寻找一个对数据进行投影的方向使得投影误差能够最小我将它叫做 u(1) 无论它是正的还是负的都没关系 (Jun:因为之前进行了归一化，那么这个向量是经过远点的，它主要是代表一个方向)

更一般的情况是我们有 n 维的数据想降到 k 维在这种情况下我们不仅仅只寻找单个的向量来对数据进行投影我们要找到 k 个方向来对数据进行投影从而最小化投影误差

右图显示了三维的情况那么我们要找的就是一个用两个向量u(1)和u(2) 确定的平面

Principal Component Analysis Algorithm

要点：主成成分分析(PCA)的算法实现过程应用 PCA 来给数据降维

均值归一：首先计算出每个特征的均值 μ 然后我们用 x - μ 来替换掉 x 这样就使得所有特征的均值为0

特征缩放：把每个特征进行缩放使其处于同一可比的范围内用 x(i)j 减去平均值 μj 除以 sj 来替换掉第 j 个特征 x(i)j 这里的 sj 表示特征 j 的某个量度范围因此它可以表示最大值减最小值或者更普遍地它可以表示特征 j 的标准差

进行完以上这些数据预处理后接下来就正式进入 PCA 的算法部分

对于左边这个例子我们的数据是二维实数 x(i) 我们想要做的是找到一系列一维实数 z(i) 来表示我们的数据也就是把数据投影到这条红线上我们只需要一个数来指明点在线上的位置我把这个数称为 z 或者 z1

因此 PCA 要做的事儿就是要得到一种方法来计算两个东西其一是计算这些向量比如左图的 u(1) 右图的 u(1) u(2) 其二是怎样计算出这些 z

所需要进行的步骤假如说我们想要把数据从 n 维降低到 k 维

我们首先要做的是计算出这个协方差矩阵通常是用希腊字母大写的西格玛 ∑ 来表示

计算出这个协方差矩阵后假如我们把它存为 Octave 中的一个变量叫 Sigma 我们需要做的是计算出 Sigma 矩阵的特征向量 (eigenvectors) 在 Octave 中你可以使用如下命令来实现这一功能 [U,S,V] = svd(Sigma); svd 表示奇异值分解 (singular value decomposition) 如果你的数据是一个大 X 矩阵那么 Sigma = (1/m) * X' * X

实际上 Sigma 是一个协方差矩阵有很多种方法来计算它的特征向量 Octave 中 svd 命令和 eig 命令将得到相同的结果虽然说 svd 要更稳定一些你用 Sigma 命令用在这里的协方差矩阵上你会得到同样的答案这是因为协方差均值总满足一个数学性质称为对称正定 (symmetric positive definite)

svd 和 eig 是不同的函数但当它们用在协方差矩阵时可以证明它始终是满足这个数学性质的因此用两个命令的结果一样

Sigma 应该是一个 n×n 的矩阵 svd 将输出三个矩阵分别是 U S V 你真正需要的是 U 矩阵 U 矩阵也是一个 n×n 矩阵如果我们看 U 矩阵的列实际上 U 矩阵的列元素就是我们需要的 u(1) u(2) 等等

如果我们想将数据的维度从 n 降低到 k 的话我们只需要提取前 k 列向量

因此这就是一个 n × k 维的矩阵叫做 U 下标 reduce 表示 U 矩阵约减后的版本我将用它来约减我的数据

然后计算 z 的方法是 z 等于这个 Ureduce 矩阵的转置乘以 x 维度 k × n *维度 n × 1 = 维度 k × 1 因此 z 是 k 维的这就是 PCA 的全过程

另外跟 k均值算法类似 PCA 的 x 应该是 n 维实数所以没有 x0 = 1 这一项

Applying PCA

Reconstruction from Compressed Representation

PCA (主成分分析) 作为压缩数据的算法能将高达一千维度的数据压缩到只有一百个维度如果有一个这样的压缩算法那么也应该有一种方法可以从压缩过的数据近似地回到原始高维度的数据

给出一个一维实数点z 我们能否让z重新变成原来的二维实数点x？我们知道 z的值等于Ureduce的转置乘以x 如果想得到相反的情形方程应这样变化 x_approx 应该等于 Ureduce乘以z 右图就是还原成二维后的样本

为了检查维度在这里 Ureduce 是一个n×k矩阵 z就是一个k×1维向量将它们相乘得到的就是n×1维所以说 x_approx 是一个n维向量我们也称这一过程为原始数据的重构 ( reconstruction )

Choosing the Number of Principal Components

在 PCA 算法中我们把n维特征变量降维到k维特征变量这个数字k 是 PCA 算法的一个参数这个数字k也被称作 主成分的数量 或者说是我们保留的主成分的数量

为了选择参数k 也就是要选择主成分的数量这里有几个有用的概念 PCA 所做的是尽量最小化平均平方映射误差 (Average Squared Projection Error)

我还要定义一下数据的总变差 (Total Variation) 它是这些样本x(i)的长度的平方的均值它的意思是 “平均来看我的训练样本距离零向量多远？ ”

当我们去选择k值的时候一个常见的选择K值的经验法则是选择能够使得它们之间的比例小于等于0.01的最小的k值换言之用PCA的语言说就是保留了99%的差异性

如果你使用PCA 并且你想要告诉别人你保留了多少个主成分更为常见的一种说法是我选择了参数k 使得99%的差异性得以保留了解这个事情是有用的它的意思是平均平方映射误差除以总变差至多是1% 这是一个可以去思考的有见解的事情然而如果你跟别人说 “我有100个主成分” 或者说“从1000维的数据中得到的k等于100” 这就有点让人难以理解

可能从95到99 是人们最为常用的取值范围对于许多数据集你可能会惊讶为了保留99%的差异性通常你可以大幅地降低数据的维度却还能保留大部分的差异性因为大部分现实中的数据许多特征变量都是高度相关的所以实际上大量压缩数据是可能的而且仍然会保留 99%或95%的差异性那么你该如何实现它呢？

你可能会用到这个算法你可以这样开始比如你想选取k的值我们可以从k=1开始然后我们再进行主成分分析我们算出 Ureduce z(1) z(2) 一直到 z(m) 算出所有那些 x_approx(1) 一直到 x_approx(m) 然后我们看一下99%的差异性是否被保留下来了是的话就搞定了我们就用 k=1 但如果不是那么我们接下来尝试 k=2 然后我们要重新走一遍这整个过程检查是否满足这个表达式这个式子的值是否小于0.01 如果不是我们再重复一次我们尝试 k=3 然后试 k=4 以此类推一直试到比如我们一直试到 k=17 然后发现99%的数据都被保留了我们就会用 k=17 这是一种用来选择使得99%的差异性能够得以保留的最小的k值的方法

但是可以想见这个过程的效率相当地低

我们在尝试 k=1 k=2 时做了所有这些计算幸好你在应用 PCA 时实际上在这一步它已经给了我们一个可以使计算变得容易很多的量特别是当你调用 svd 来计算这些矩阵U S V时当你对协方差的矩阵 Sigma 调用 svd 时我们还会得到这个矩阵S 是一个对角方阵

这里有个等价的计算，就是从 i=1 到 k 对 Sii 求和除以从 i=1 到 n 对 Sii 求和它是否大于等于0.99 如果你想确保能够保留99%的差异性的话你要做的就是慢慢地增大k值把k值设为1 k值设为2 把k值设为3 以此类推并检验这个数值找出能够确保99%的差异性被保留的最小的k值找出能够确保99%的差异性被保留的最小的k值如果这样做那么你只需要调用一次 svd 函数因为它会给你S矩阵

Advice for Applying PCA

在解决某个计算机视觉的问题在这里有一张100 × 100的图片那么如果是100×100 那就是10000 像素如果 x(i) 是包含了这10000像素强度值的特征向量那么你就会有10000维特征向量像这样有很高维的特征向量运行会比较慢

我们应用PCA 将x从10000维江到1000维的z，就有了一个新的训练集样本 (z，y) 然后将这个已经降维的数据集输入到学习算法学习出假设函数

最后要注意一点 PCA 定义了从 x到z的对应关系 这种从 x 到 z的对应关系只可以通过在训练集上运行 PCA 定义出来 当你在运行PCA的时候只是在训练集那一部分来进行的而不是交叉验证的数据集这就定义了从 x到z的映射然后你就可以将这个映射应用到交叉验证数据集中和测试数据集中

对于大多数我们实际面对的数据降维问题降维到原来的五分之一或者十分之一依旧保持着原本维度数据的变化情况改变并不会有多少影响就分类的精确度而言数据降维后对学习算法几乎没有什么影响如果我们将降维用在低维数据上我们的学习算法会运行得更快

有关PCA的应用中第一个是数据压缩第二是可视化应用

对PCA不好的应用方面那就是使用它来避免过拟合如果我们有x(i) 是有n个特征的数据集如果我们将数据进行压缩并用压缩后的数据z(i)来代替原始数据在降维过程中我们从n个特征降维到k个比先前的维度低例如如果我们有非常小的特征数目假如k值为1000 n值为10000 如果我们有1000维度的数据和我们用10000维度的数据比起来对于同样是1000个特征来说或许更不容易过拟合如果你想使用 PCA方法来对数据降维以避免过拟合 PCA方法实际看起来是可以的但是这并不是一个用来解决过拟合问题的算法仔细想想PCA是如何工作的它把某些信息舍弃掉了舍弃掉一些数据并在你对数据标签y值毫不知情的情况下对数据进行降维

建议一开始不要将 PCA方法就直接放到算法里先使用原始数据x(i)看看效果只有一个原因让我们相信算法出现了问题那就是你的学习算法收敛地非常缓慢占用内存或者硬盘空间非常大所以你想来压缩数据只有当你的x(i)效果不好只有当你有证据或者充足的理由来确定 x(i)效果不好的时候那么就考虑用PCA来进行压缩数据

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第8周学习笔记