吴恩达-机器学习（8）-K-Mean、PCA - 代码天地

吴恩达-机器学习（8）-K-Mean、PCA

其他 2018-12-19 15:23:53 阅读次数: 0

文章目录

Clustering

K-Mean Algorithm
Opetimization objective
Random Initialization
Choosing the number of Clusters

Motivation

Data Compression
Data Visualiztion

Principal Component Analysis

Principal Component Analysis Problem Formulation
Principal Component Analysis Algorithm

Applying PCA

Reconstruction from Compressed Representation
Choosing the Number of Principal Components
Advice for applying PCA

Clustering

K-Mean Algorithm

下图中已经有没有标签的点，现在需要分为两类
进行k-Mean算法
1、随机选取两个聚类中心，需要分为几类就选取几个聚类中心

2、遍历所有的点，根据点到聚类中心的距离来判断将该点分到哪个聚类中

3、然后将红色的聚类中心移动到所有红色点的均值位置，蓝色的聚类中心移动到所有蓝色点的均值位置

重复2、3过程直到收敛
K-Mean中的K就只的是要分为几类

Opetimization objective

K-Mean中的优化目标
J是点到聚类中心的平均距离，J也被称为失真函数

Random Initialization

随机选取聚类中心
一般是随机选取K个样本，在让聚类中心等于这些样本

局部最优

加入随机初始化和代价函数后的K-Mean,最后的J的结果一般在2~10之间才是全局最优解

Choosing the number of Clusters

Elbow Method
绘制代价函数关于K的函数曲线,J会随着K的增大而减小，逐渐趋于平稳，拐点处的K即我们所需要的K
但大部分情况拐点不是很清晰，不能很明显的找出来

通过聚类要达到的目的来确定K的值，以T恤为例，如果T恤的尺码只有S、M、L那么K就应该选择3

Motivation

Data Compression

数据压缩不仅可以使数据量减少，减小内存和硬盘的占用，而且可以提高算法的计算速度
数据压缩就是寻找相关特征之间的关系如下图中的x1和x2都是表示长度，只是单位不一样，就可以根据他们的线性关系，合并为一个一维特征

三维数据降到二维
将三维数据投影到一个二维平面

Data Visualiztion

一个高维数据可以被计算机处理，但人只能感知三维的数据，所以在做高维数据可视化时，要先对数据进行降维，在进行可视化。

Principal Component Analysis

Principal Component Analysis Problem Formulation

PCA将高维数据投影到低维空间,使得数据投影到这个面的误差最小,这个误差也叫作投影误差，在进行降维之前，要对数据进行均值归一化和特征规范化

对于二维降到一维，是要寻找一个向量，使得投影误差最小
对于n维降到k维，是要寻找k个向量，使得投影误差最小
PCA和线性回归的区别：

线性回归的误差是结果值得误差，PCA是点到投影面的距离
PCA是无监督学习

Principal Component Analysis Algorithm

数据预处理(特征缩放/均值归一化)

PCA算法的步骤：

计算协方差矩阵
使用svd计算 $\Sigma$ 的特征值和特征向量
将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵 $U_r$
$Z=U^T*X$ 就是降维之后的数据

Applying PCA

Reconstruction from Compressed Representation

Choosing the Number of Principal Components

计算平均投影误差和总变差的比，选择该值最小时候的K，该值表示的是与原数据的差异性，当为0.01时代表PCA保留了99%的差异性

选择K的两种两种方法：

尝试不同的K，计算差异性，如果>99%则符合要求
根据svd的到奇异值矩阵，矩阵对角上前K个数的和除以全部数的和就是差异性，从而根据差异性找到K

Advice for applying PCA

监督学习加速
降维矩阵应该在训练集上运行PCA获得，得到降维矩阵后就可以在交叉验证集合测试集上使用

PCA并不是一个防止过拟合的好方法，应当使用正则化来防止过拟合

猜你喜欢

转载自blog.csdn.net/u014351944/article/details/82844274

吴恩达-机器学习（8）-K-Mean、PCA

【机器学习实战】K-mean代码

机器学习（九）：K-mean 算法

吴恩达机器学习（八）聚类与降维（K-Means，PCA）

吴恩达机器学习作业Python实现(七)：K-means和PCA

吴恩达机器学习 - PCA算法降维

《吴恩达机器学习》14 降维（PCA算法）

吴恩达机器学习笔记——降维与PCA算法

吴恩达《机器学习》——PCA降维

吴恩达机器学习 - PCA算法降维吴恩达机器学习 - PCA算法降维

Coursera-吴恩达-机器学习-第八周-编程作业: K-Means Clustering and PCA

吴恩达机器学习作业Python实现(七)：K-means和PCA主成分分析

吴恩达的机器学习编程作业18：pca pca压缩数据

【吴恩达】机器学习第14章PCA以及ex7PCA编程练习

吴恩达机器学习

机器学习——吴恩达

吴恩达机器学习

机器学习吴恩达

吴恩达《机器学习》

《吴恩达机器学习》8 神经网络学习

吴恩达机器学习笔记 —— 8 正则化

吴恩达机器学习笔记8-异常检测

吴恩达机器学习笔记8——正则化Regularization

吴恩达机器学习笔记week 8

吴恩达机器学习Coursera-week8

吴恩达机器学习——第8章正则化

[吴恩达机器学习笔记]14降维3-4PCA算法原理

吴恩达的机器学习编程作业19 projectData pca计算压缩后的数据

吴恩达机器学习（十二）主成分分析（降维、PCA）

吴恩达机器学习（第十五章）---降维PCA

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)