机器学习案例:利用主成分分析为人脸数据降维——基于Scikit-Learn

《Python数据科学手册》笔记

该案例用的数据集为Scikit-Learn中的Wild数据集。

首先将人脸数据中前几个主成分的图像进行可视化,然后再看看这些成分的累计方差,最后根据累计方差图选择合适的主成分对人脸数据进行低维重构,观察效果。

一、特征脸

from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=60)
from sklearn.decomposition import PCA
pca = PCA(150)
pca.fit(faces.data)
fig,axes = plt.subplots(3,8,figsize=(9,4),subplot_kw={'xticks':[],'yticks':[]},gridspec_kw=dict(hspace=0.1,wspace=0.1))
for i,ax in enumerate(axes.flat):
    ax.imshow(pca.components_[i].reshape(62,47),cmap='bone')

 

看上去有些恐怖(o(╥﹏╥)o) 

前面几张特征脸看起来和照向脸的光线角度有关,而后面的主向量挑选了特定的特征,例如眼睛、鼻子和嘴唇。

二、累计方差图

plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance')

 

可以看到,这150个成分包含了90%的方差,因此可以猜测,利用这150个成分能够重构图像。 

三、低维重构

pca = PCA(150).fit(faces.data)
components = pca.transform(faces.data)
projected = pca.inverse_transform(components)

fig,ax = plt.subplots(2,10,figsize=(10,2.5),subplot_kw={'xticks':[],'yticks':[]},gridspec_kw=dict(hspace=0.1,wspace=0.1))
for i in range(10):
    ax[0,i].imshow(faces.data[i].reshape(62,47),cmap='binary_r')
    ax[1,i].imshow(projected[i].reshape(62,47),cmap='binary_r')
    
ax[0,0].set_ylabel('full-dim\nimput')
ax[1,0].set_ylabel('150-dim\nreconstruction')

 

第一行为原始图片,第二行为重构后的图片。原始数据将近3000维,而这里只用了150维进行数据重构,比较两行图片,肉眼看来相差并不大,说明在主成分分析法降维之后,后续的分类算法只需要在150维的数据上训练,而不需要在3000维的数据上训练,节约了很多时间与空间。

猜你喜欢

转载自blog.csdn.net/elma_tww/article/details/88140734