Cousera吴恩达机器学习week5笔记

Clustering

K-Means Algorithm

K均值(K-means)算法是一个广泛使用的用于簇划分的算法。下面说明K均值算法的步骤:

  1. 随机初始化K个样本(点),称之为簇中心(cluster centroids)
  2. 簇分配: 对于所有的样本,将其分配给离它最近的簇中心;
  3. 移动簇中心:对于每一个簇,计算属于该簇的所有样本的平均值,移动簇中心到平均值处;
  4. 重复步骤2和3,直到找到我们想要的簇

在这里插入图片描述

输入:

  • K (number of clusters)
  • Training set在这里插入图片描述, where 在这里插入图片描述 在这里插入图片描述

算法:

Randomly initialize K cluster centroids 在这里插入图片描述

Repeat {

​ for i = 1 to m

在这里插入图片描述:= index (from 1 to K ) of cluster centroid closest to 在这里插入图片描述

​ for k = 1 to K

在这里插入图片描述:= average (mean) of points assigned to cluster

​ }

上述算法中,第一个循环对应了簇分配的步骤:我们构造向量c,使得c(i)的值等于x(i)所属簇的索引,即离x(i)最近簇中心的索引。用数学的方式表示如下:

在这里插入图片描述

第二个循环对应移动簇中心的步骤,即移动簇中心到该簇的平均值处。更数学的方式表示如下:

在这里插入图片描述

其中在这里插入图片描述都是被分配给簇在这里插入图片描述的样本。

如果有一个簇中心没有分配到一个样本,我们既可以重新初始化这个簇中心,也可以直接将其去除。

经过若干次迭代后,该算法将会收敛,也就是继续迭代不会再影响簇的情况。

Optimization Objective

在这里插入图片描述

Random Initialization

在这里插入图片描述

Choosing the number of Clusters

选择K的取值通常是主观的,不明确的。也就是没有一种方式确保K的某个取值一定优于其他取值。但是,有一些方法可供参考。

**The elbow method **: 画出代价J关于簇数K的函数图,J值应该随着K的增加而减小,然后趋于平缓,选择当J开始趋于平衡时的K的取值。如图9-5的(1)所示。

但是,通常这条曲线是渐变的,没有很显然的"肘部"。如图9-5的(2)所示

在这里插入图片描述

注意:随着K的增加J应该总是减少的,否则,一种出错情况可能是K均值陷入了一个糟糕的局部最优。

Motivation

Data Compression

1.1 数据压缩或者数据降维首先能够减少内存或者硬盘的使用, 如果内存不足或者计算的时候出现内存溢出等问题, 就需要使用PCA获取低维度的样本特征。

1.2 其次, 数据降维能够加快机器学习的速度。

Visulization

在很多情况下, 可能我们需要查看样本特征, 但是高维度的特征根本无法观察, 这个时候我们可以将样本的特征降维到2D或者3D, 也就是将样本的特征维数降到2个特征或者3个特征, 这样我们就可以采用可视化观察数据。

PCA

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Sigma = (1/m) * X’ * X; % compute the covariance matrix
[U,S,V] = svd(Sigma); % compute our projected directions
Ureduce = U(:,1:k); % take the first k directions
Z = X * Ureduce; % compute the projected data points

Reconstruction from compressed representation

在这里插入图片描述

Choosing the number of Principal Components

在这里插入图片描述

在这里插入图片描述

Advice for Applying PCA

Supervised learning speedup

Bad use of PCA:To prevent overfitting

使用PCA去避免过拟合不是一个好应用,可以使用正则化

PCA is sometimes used where it shouldn’t be

在这里插入图片描述

发布了151 篇原创文章 · 获赞 110 · 访问量 10万+

猜你喜欢

转载自blog.csdn.net/qq_35564813/article/details/104226974