sklearn中的降维算法(PCA)(原理相关)-1

一、维度:

1、对于数组和series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。

2、维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。

3、对图像来说,维度就是图像中特征向量的个数,特征向量可以理解为坐标轴,一个特征向量代表一维。也就是说,三维及一下的特征矩阵是可以被可视化的,三维以上的则不能。

二、特征矩阵:

特征矩阵特指二维,一定有行列,一个特征是一维。若将特征矩阵用pandas的DataFrame表示,形式如下:

                                                        

由上面的DataFrame可知,行数代表样本的个数,列数代表特征的个数,特征的个数往往比样本的个数少的多。

三、降维相关

1、降维算法中的降维,指的是降低特征矩阵中特征的数量。

2、sklearn中的降维算法都被包括在模块decomposition中,其本质是矩阵分解,即使特征矩阵的分解。

3、在高维数据中,必然有一些特征是不带有有效信息的(比如噪音),或者有一些特征带的信息和其他特征的信息是重复的(比如一些特征可能会线性相关),因此我们需要既能减少特征的数量,又能保留大部分有效信息,在PCA中,用方差来衡量有效信息的多少,如果一个特征的方差很小,则意味着这个特征上很有可能大量取值都相同(比如大部分都围绕着一个数),那这个特征的取值对样本来说就没有区分度,这种特征就不带有有效信息;相反,如果一个特征的方差很大,则说明这个特征带有大量的有效信息。

4、解释一下为什么特征的方差越小,带有的信息越小:在机器学习中,我认为衡量特征的好坏看的就是该特征与结果的相关性,即特征的取值变化要引起结果的变化,这样的特征才能说对结果有影响,才能分配权重,若一个特征的方差很小,即所有的值都很集中,那么无论这个特征取什么值,都不会对结果带来太大的影响,也就是说有或者没有这个特征,对最终的结果不会带来太大的影响。

5、降维过程中的几个重要的步骤:

四、sklearn中的降维算法

sklearn中的降维算法如下:(用的时候直接调用即可)

其中,主成分分析(PCA)、高级矩阵分解(LDA、NMF)最重要。

五、PCA如何构建主成分?

1、第一个主成分以占数据集中最大可能方差的方式构造,从数学的角度讲,它是最大化方差的线。

2、第二个主成分以相同的方式计算,条件是它与第一个主成分不相关(即垂直),并且它占下一个最高方差。

3、依次类推,一直持续到计算出总共P个主成分,主成分的个数可手动输入,默认为特征矩阵shape中最小的一个数。

六、最大方差理论 

接着五中的第一条,讲一下什么是最大化方差理论

在信号处理中,认为信号具有较大的方差,噪音有较小的方差,信噪比就是信号与噪音的方差比,越大越好。举个例子:

                                                                          

如上图所示,样本在F1方向上的投影方差较大,而在F2上的投影方差较小 ,那么可以认为F2上的投影是由噪音引起的。因此我们认为,最好的k维特征是将n维样本点转换为k维特征后,每一个维度上的样本方差都很大。下面在举一个例子:

                                                                      

 如上图所示,有五个点,分别沿着两个方向投影,显然第一个方向投影获得的方差更大,更有相关性。

思考:PCA和特征选择技术都是特征工程的一部分,它们有什么不同?

1、特征工程中有三种方式:特征提取,特征创造和特征选择。

2、特征选择是从已存在的特征中选取携带信息最多的,选完之后的特征依然具有可解释性,我们依然知道这个特征在原数据的哪个位置,代表着原数据上的什么含义。而PCA,是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。通常来说,在新的特征矩阵生成之前,我们无法知晓PCA都建立了怎样的新特征向量,新特征矩阵生成之后也不具有可读性,我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来,新特征虽然带有原始数据的信息,却已经不是原数据上代表着的含义了。以PCA为代表的降维算法因此是特征创造(feature creation,或feature construction)的一种。可以想见,PCA一般不适用于探索特征和标签之间的关系的模型(如线性回归),因为无法解释的新特征和标签之间的关系不具有意义。在线性回归模型中,我们使用特征选择。

注:博客园链接:https://www.cnblogs.com/wdkblog/p/14180744.html

猜你喜欢

转载自blog.csdn.net/weixin_45671036/article/details/111599576
今日推荐