一,引言
降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。
降维具有如下一些优点:
(1)使得数据集更易使用
(2)降低算法的计算开销
(3)去除噪声
(4)使得结果容易理解
PCA(principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。
通过这种方式获得的新的坐标系,我们发现,大部分方差都包含在前面几个坐标轴中,后面的坐标轴所含的方差几乎为0,。于是,我们可以忽略余下的坐标轴,只保留前面的几个含有绝不部分方差的坐标轴。事实上,这样也就相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,也就实现了对数据特征的降维处理。
那么,我们如何得到这些包含最大差异性的主成分方向呢?事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。
既然,说到了协方差矩阵,那么这里就简单说一下方差和协方差之间的关系,首先看一下均值,方差和协方差的计算公式:
由上面的公式,我们可以得到一下两点区别:
(1)方差的计算公式,我们知道方差的计算是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征。可以说方差就是协方差的特殊情况
具体的代码为:
#导入numpy库 from numpy import * #解析文本数据函数 #@filename 文件名txt #@delim 每一行不同特征数据之间的分隔方式,默认是tab键'\t' def loadDataSet(filename,delim='\t') #打开文本文件 fr=open(filename) #对文本中每一行的特征分隔开来,存入列表中,作为列表的某一行 #行中的每一列对应各个分隔开的特征 stringArr=[line.strip().split(delim) for line in fr.readlines()] #利用map()函数,将列表中每一行的数据值映射为float型 datArr=[map(float.line)for line in stringArr] #将float型数据值的列表转化为矩阵返回 return mat(datArr) #pca特征维度压缩函数 #@dataMat 数据集矩阵 #@topNfeat 需要保留的特征维度,即要压缩成的维度数,默认4096 def pca(dataMat,topNfeat=4096): #求数据矩阵每一列的均值 meanVals=mean(dataMat,axis=0) #数据矩阵每一列特征减去该列的特征均值 meanRemoved=dataMat-meanVals #计算协方差矩阵,除数n-1是为了得到协方差的无偏估计 #cov(X,0) = cov(X) 除数是n-1(n为样本个数) #cov(X,1) 除数是n covMat=cov(meanRemoved,rowvar=0) #计算协方差矩阵的特征值及对应的特征向量 #均保存在相应的矩阵中 eigVals,eigVects=linalg.eig(mat(conMat)) #sort():对特征值矩阵排序(由小到大) #argsort():对特征值矩阵进行由小到大排序,返回对应排序后的索引 eigValInd=argsort(eigVals) #从排序后的矩阵最后一个开始自下而上选取最大的N个特征值,返回其对应的索引 eigValInd=eigValInd[:-(topNfeat+1):-1] #将特征值最大的N个特征值对应索引的特征向量提取出来,组成压缩矩阵 redEigVects=eigVects[:,eigValInd] #将去除均值后的数据矩阵*压缩矩阵,转换到新的空间,使维度降低为N lowDDataMat=meanRemoved*redEigVects #利用降维后的矩阵反构出原数据矩阵(用作测试,可跟未压缩的原矩阵比对) reconMat=(lowDDataMat*redEigVects.T)+meanVals #返回压缩后的数据矩阵即该矩阵反构出原始数据矩阵 return lowDDataMat,reconMat
上述降维过程,首先根据数据矩阵的协方差的特征值和特征向量,得到最大的N个特征值对应的特征向量组成的矩阵,可以称之为压缩矩阵;得到了压缩矩阵之后,将去均值的数据矩阵乘以压缩矩阵,就实现了将原始数据特征转化为新的空间特征,进而使数据特征得到了压缩处理。
转自:https://www.cnblogs.com/zy230530/p/7074215.html