数据分析--降维--LDA和PCA - 代码天地

数据分析--降维--LDA和PCA

其他 2018-07-20 19:14:49 阅读次数: 0

一、因子分析

　　因子分析是将具有错综复杂关系的变量（或样本）综合为少数几个因子，以再现原始变量和因子之间的相互关系，探讨多个能够直接测量，并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配，并且在条件许可时借此尝试对变量进行分类。

　　因子分析的基本思想

　　根据变量间相关性的大小把变量分组，使得同组内的变量之间的相关性（共性）较高，并用一个公共因子来代表这个组的变量，而不同组的变量相关性较低（个性）。

　　因子分析的目的¶

　　因子分析的目的，通俗来讲就是简化变量维数。即要使因素结构简单化，希望以最少的共同因素（公共因子），能对总变异量作最大的解释，因而抽取得因子越少越好，但抽取的因子的累积解释的变异量越大越好。

　　主要内容：

　　（1）：主成分分析 PCA

　　（2）：线性判别分析 LDA

二、主成分分析 PCA

　　1、PCA

　　英语全称：Principal Component Analysis

　　用途:降维中最常用的一种手段
　　目标:提取最有价值的信息(基于方差)
　　问题:降维后的数据的意义?

　　2、向量的表示及基变换

　　内积:

　　解释:

　　设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度

　　　　　　　　　　

　　

　　向量可以表示为(3,2)实际上表示线性组合:

　　　　　　　　　　

　　基:(1,0)和(0,1)叫做二维空间中的一组基

　　　　　　　　　　

　　基变换

　　基是正交的(即内积为0,或直观说相互垂直)
　　要求:线性无关

　　　　　　　　　　

　　变换: 数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个新坐标的分量

　　数据(3,2)映射到基中坐标: 　　

　　　　　　　　　　　　

　　两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去

　　协方差矩阵

　　方向：如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?
　　一种直观的看法是：希望投影后的投影值尽可能分散

　　方差：　　

　　寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大　　

　　协方差(假设均值为0时)：

　　协方差

　　如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合。
　　解决方案:为了让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的
　　协方差:可以用两个字段的协方差表示其相关性：

　　当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

　　优化目标

　　将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,字段的方差则尽可能大

　　协方差矩阵:　　　　　

　　矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。

　　协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列

　　协方差矩阵对角化:　　

　　　　　　　　　　

　　实对称矩阵:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量

　　　　　　　　　　　　

　　实对称阵可进行对角化:

　　　　　　　　　　　　

　　根据特征值的从大到小，将特征向量从上到下排列,则用前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y

　　PCA实例

　　　　

三、主成分分析 LDA

　　1、LDA

　　全称为：Linear Discriminant Analysis
　　用途:数据预处理中的降维,分类任务
　　历史:Ronald A. Fisher在1936年提出了线性判别方法
　　目标:LDA关心的是能够最大化类间区分度的坐标轴成分
　　将特征空间(数据集中的多维样本)投影到一个维度更小的 k 维子空间中，同时保持区分类别的信息

　　原理：投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法

　　　　　

　　

　　监督性:LDA是“有监督”的,它计算的是另一类特定的方向
　　投影:找到更合适分类的空间

　　　　　　　　　　　　　　

　　与PCA不同,更关心分类而不是方差

　　2、数学原理

　　

　　目标: 找到该投影

　　LDA分类的一个目标是使得不同类别之间的距离越远越好，同一类别之中的距离越近越好

　　每类样例的均值: 　　

　　投影后的均值:

　　投影后的两类样本中心点尽量分离:

　　对于下图：

　　　　

　　只最大化J(w)就可以了?
　　X1的方向可以最大化J(w),但是却分的不好
　　散列值:样本点的密集程度,值越大,越分散,反之,越集中
　　同类之间应该越密集些:

　　　　　　　　　　　　

　　

　　　

　　分母进行归一化:如果分子、分母是都可以取任意值的，那就会使得有无穷解,我们将分母限制为长度为1

　　拉格朗日乘子法:

　　　　　　　　　　

　　两边都乘以Sw的逆:

　　　　　　　　　　

　　可见，w就是矩阵的特征向量了

猜你喜欢

转载自www.cnblogs.com/zongfa/p/9343086.html

数据分析--降维--LDA和PCA

LDA和PCA降维

机器学习：数据降维：PCA 、LDA

(二)sklearn降维——PCA和LDA

LDA和PCA降维的区别

降维算法 LDA & PCA

降维实践（PCA，LDA）

LDA降维与PCA降维对比

07_数据降维，降维算法，主成分分析PCA,NMF，线性判别分析LDA

PCA降维和LDA降维

机器学习中的降维方法（PCA和LDA）

机器学习之降维方法：PCA和LDA的区别

降维方法(LDA、PCA、KLDA、MDS和ISOMAP)总结

降维：LDA与PCA的简析理解

个人总结：降维从 PCA 到 LDA

特征降维的方法：PCA，LDA

分别进行PCA降维和LDA降维后分类iris数据集

数据降维PCA

降维分析二：LDA

维度灾难与降维以及 PCA 主成分分析与 LDA 线性判别分析

降维：主成分分析PCA以及Fisher线性判别(LDA)要点

PCA降维实例分析

【机器学习实战】降维方法的sklearn实现----PCA和LDA

ML之DR：基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例

数据降维之主成分分析法（PCA）

用PCA主成分分析给数据降维

数据降维(三)PCA主成分分析

数据降维——主成分分析（PCA）

数据降维——PCA（主成分分析）算法原理

数据降维-主成分分析（PCA）

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)