机器学习案例：利用主成分分析为人脸数据降维——基于Scikit-Learn

《Python数据科学手册》笔记

该案例用的数据集为Scikit-Learn中的Wild数据集。

首先将人脸数据中前几个主成分的图像进行可视化，然后再看看这些成分的累计方差，最后根据累计方差图选择合适的主成分对人脸数据进行低维重构，观察效果。

一、特征脸

from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=60)
from sklearn.decomposition import PCA
pca = PCA(150)
pca.fit(faces.data)
fig,axes = plt.subplots(3,8,figsize=(9,4),subplot_kw={'xticks':[],'yticks':[]},gridspec_kw=dict(hspace=0.1,wspace=0.1))
for i,ax in enumerate(axes.flat):
    ax.imshow(pca.components_[i].reshape(62,47),cmap='bone')

看上去有些恐怖（o(╥﹏╥)o）

前面几张特征脸看起来和照向脸的光线角度有关，而后面的主向量挑选了特定的特征，例如眼睛、鼻子和嘴唇。

二、累计方差图

plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance')

可以看到，这150个成分包含了90%的方差，因此可以猜测，利用这150个成分能够重构图像。

三、低维重构

pca = PCA(150).fit(faces.data)
components = pca.transform(faces.data)
projected = pca.inverse_transform(components)

fig,ax = plt.subplots(2,10,figsize=(10,2.5),subplot_kw={'xticks':[],'yticks':[]},gridspec_kw=dict(hspace=0.1,wspace=0.1))
for i in range(10):
    ax[0,i].imshow(faces.data[i].reshape(62,47),cmap='binary_r')
    ax[1,i].imshow(projected[i].reshape(62,47),cmap='binary_r')
    
ax[0,0].set_ylabel('full-dim\nimput')
ax[1,0].set_ylabel('150-dim\nreconstruction')

第一行为原始图片，第二行为重构后的图片。原始数据将近3000维，而这里只用了150维进行数据重构，比较两行图片，肉眼看来相差并不大，说明在主成分分析法降维之后，后续的分类算法只需要在150维的数据上训练，而不需要在3000维的数据上训练，节约了很多时间与空间。

机器学习案例：利用主成分分析为人脸数据降维——基于Scikit-Learn

猜你喜欢