机器学习笔记之二十二——PCA与SVD - 代码天地

机器学习笔记之二十二——PCA与SVD

其他 2020-04-24 00:07:59 阅读次数: 0

PCA（主成分分析）是机器学习中常用于数据降维的一种方式，SVD（奇异值分解）也具有降维的效果，在推荐领域、nlp领域较为常见。

PCA

PCA主要通过数据矩阵的协方差来作为降维的准则，具体流程如下：

（1）、对m*n矩阵计算协方差，得到n*n的协方差方阵。

（2）、使用特征值分解对协方差方阵进行分解。

（3）、确定n降维到多少，定义为k。

（4）、对特征值分解的矩阵进行缩减，然后再近似组合，得到m*k的降维后矩阵。

这里面，值得一提的也只有特征值分解了。

特征值分解

先来看看公式：，A为原方阵； ∑是一个对角线矩阵（对角线上的元素即为A方阵的特征值们）；Q矩阵则是可以理解成特征值对应的特征向量们叠在一起的矩阵。

其实知道一点就可以理解特征值分解了：∑ 的对角线，从上到下的特征值对应的特征向量的重要性，由大到小排列，且绝大部分信息都包含在前几个特征值与特征向量之中。

也就是说,我们在 ∑ 矩阵中只取前k特征值个就足够了，特征向量矩阵Q也随着特征值的取值进行裁剪。

这样得到的新的Q矩阵和∑矩阵再如分解时一样乘起来，得到一个原A矩阵的近似值，这就是降维之后的矩阵。

SVD（奇异值分解）

SVD在数学上时特征值分解的一般化，因为特征值分解只对方阵有效，而SVD解决了这个问题。

式子中的V不再是U的逆矩阵。

不去考虑那么多的原理，到这里为止大概能够理解到这个东西为什么比特征值分解有名的多了，实际问题中遇到的矩阵，百分之九十九都不是方阵。

顺便一提，NLP领域的LSI、LSA算法实质上就是对词汇-文章矩阵做SVD。而在推荐领域，SVD及其变种一般应用与用户-商品的点击（或点赞等）矩阵。

参考链接：

https://www.imooc.com/article/details/id/31164

https://www.cnblogs.com/pinard/p/6251584.html

落在地上的乐乐

发布了88 篇原创文章 · 获赞 28 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_35946969/article/details/88074186

机器学习笔记之二十二——PCA与SVD

IOS学习笔记之二十二(文件io)

ElasticSearch学习笔记之二十二指标聚合续

【机器学习】SVD与PCA

机器学习实战（十二）降维（PCA、SVD）

【Java学习笔记之二十二】解析接口在Java继承中的用法及实例分析

JavaWeb同步学习笔记之二十二、JavaWeb_JSP标签

GUI学习之二十二——QRubberBand学习总结

Echarts学习之二十二：echarts实例的相关操作

Python学习笔记二十二_继承

JAVA学习笔记（二十二）

Python学习笔记（二十二）MySQL

Zabbix学习笔记（二十二）

pytorch学习笔记（二十二）：Pooling

【机器学习】PCA、LDA、SVD

学习笔记：CentOS7学习之二十二：结构化命令case和for、while循环

机器学习笔记（二十二）：TensorFlow实战十四（图像风格迁移）

python编程基础之二十二

机器学习经典之（二十二）梯度下降法

学习总结(二十二)

Python学习笔记二十二_多线程与多进程

Java学习笔记二十二:Java的方法重写

设计模式学习笔记（二十二）-原型模式

二十二、Oracle学习笔记：Oracle异常

opencv学习笔记二十二：凸包

Javaweb学习笔记——（二十二）——————文件上传、下载、Javamail

oracle sql 高级编程学习笔记（二十二)

【GANs学习笔记】（二十二）VAEGAN、BiGAN

第二十二周学习笔记

JavaWeb学习笔记（二十二）—— 过滤器filter

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)