PCA （ principal components analysis ）即主成分分析，是一种使用最广泛的数据降维算法。 PCA 的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

本实训项目的主要内容是基于 python 语言实现 PCA 算法，并熟悉 sklearn 中提供的 PCA 接口来对数据进行降维。

第1关：维数灾难与降维

1.B C
2.C

第2关：PCA算法流程

任务描述

本关任务：复习教学平台讲义，补充 python 代码，完成 PCA 函数，实现降维功能。

import numpy as np

def pca(data, k):
    '''
    对data进行PCA，并将结果返回
    :param data:数据集，类型为ndarray
    :param k:想要降成几维，类型为int
    :return: 降维后的数据，类型为ndarray
    '''

    #********* Begin *********#
    #计算样本各个维度的均值
    u = np.mean(data, axis=0)
    #demean
    after_demean = data - u
    # 计算after_demean的协方差矩阵
    # after_demean的行数为样本个数，列数为特征个数
    # 由于cov函数的输入希望是行代表特征，列代表数据的矩阵，所以要转置
    cov = np.cov(after_demean.T)
    #eig函数为计算特征值与特征向量的函数
    #cov为矩阵，value为特征值，vector为特征向量
    value, vector =  np.linalg.eig(cov)
    #根据特征值value将特征向量vector降序排序
    vector_index = np.argsort(value)#np.argsort()将矩阵按照value排序，并返回排序后的下标
    #筛选出前k个特征向量组成映射矩阵P
    n = vector_index[-1:-(k+1):-1]# 从索引-1开始到索引-(k+1)停止，间隔为-1
    p = vector[:, n]#取前n个值
    #after_demean和P做矩阵乘法得到result
    result = after_demean.dot(p)
    return result
    #********* End *********#

第3关：sklearn中的PCA

任务描述

本关任务：你需要调用 sklearn 中的 PCA 接口来对数据继续进行降维，并使用 sklearn 中提供的分类器接口（可任意挑选分类器）对癌细胞数据进行分类。

from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeClassifier

def cancer_predict(train_sample, train_label, test_sample):
    '''
    使用PCA降维，并进行分类，最后将分类结果返回
    :param train_sample:训练样本, 类型为ndarray
    :param train_label:训练标签, 类型为ndarray
    :param test_sample:测试样本, 类型为ndarray
    :return: 分类结果
    '''

    #********* Begin *********#
    #构造一个将维度降至11维的PCA对象
    pca = PCA(n_components=11)
    #对数据进行降维
    train_sample = pca.fit_transform(train_sample)
    test_sample = pca.fit_transform(test_sample)

    clf = DecisionTreeClassifier(max_depth=10)
    clf.fit(train_sample, train_label)
    result = clf.predict(test_sample)
    return result
    #********* End *********#

【educoder 机器学习】PCA

第1关：维数灾难与降维

第2关：PCA算法流程

任务描述

第3关：sklearn中的PCA

任务描述

猜你喜欢