机器学习实战书籍和代码分享 | 【PCA简介】

@[TOC](这里写自定义目录标题)
开头先上图
在这里插入图片描述

机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下捕获数据并从中萃取有价值的信息或模式使得这一过去为分析师与数学家所专属的研究领域越来越为人们瞩目。

本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。

——豆瓣上面的简介——
在这里插入图片描述

目录截图:
在这里插入图片描述
在这里插入图片描述
利用PCA来简化数据

(1)降维技术

(2)主成分分析(PCA)

(3)对半导体数据进行降维处理

(1)降维技术

对数据进行简化的原因有:

1)使得数据集更易使用

2)降低很多算法的计算开销

3)去除噪声

4)使得结果易懂

(2)主成分分析(PCA)

优点:降低数据的复杂性,识别最重要的多个特征

缺点:不一定需要,且可能损失有用信息

适用数据类型:数值型数据

a)移动坐标轴

在PCA中,我们对数据的坐标进行了旋转,该旋转的过程取决于数据的本身。第一条坐标轴旋转到覆盖数据的最大方差位置,即图中的直线B。数据的最大方差给出了数据的最重要的信息。

在选择了覆盖数据最大差异的坐标轴之后,我们选择了第二条坐标轴。假如该坐标轴与第一条坐标轴垂直(正交),它就是覆盖数据次大差异性的坐标轴。
在这里插入图片描述

上面即PCA寻找坐标轴的过程。

接下来看一下有什么效果,如下图所示
在这里插入图片描述
总结:从前面提到额第一个主成分就是从数据差异性最大(即方差最大)的方法提取出来的,第二主成分则来自于数据差异性次大的方向,并且该方向与第一个主成分方向正交。通过数据集的协方差矩阵及其特征值分析,我们就可以求得这些主成分的值。

一旦得到了协方差矩阵的特征向量,我们就可以保留最大的N个值。这些特征向量也给出了N个最重要特征的真实结构。我们可以通过将数据乘上这N个特征向量而将它转换到新的空间。
在这里插入图片描述
在NumPy中实现PCA

将数据转换成前N个主成分的伪码大致如下:

(1)去除平均值

(2)计算协方差矩阵

(3)计算协方差矩阵的特征值和特征向量

(4)将特征值从大到小排序

(5)保留最上面的N个特征向量

(6)将数据转换到上述N个特征向量构建的新空间中
在这里插入图片描述

使用后的效果
在这里插入图片描述
(3)对半导体数据进行降维处理

具体的代码和数据集书中均有提供

http://archive.ics.uci.edu/ml/machine-learning-databases/secom/

从下表可以看出,前六个主成分就覆盖了数据96.8%的方差,而前20个主成分覆盖了99.3%的方差。这就表明了,如果保留前6个而去除后584个主成分,我们就可以实现大概100:1的压缩比、另外,由于舍弃了噪声的主成分,将后面的主成分去除便是的数据更加干净。
在这里插入图片描述
由于这是经典书籍,所以采用的还是python2

书籍可以回复“AI实战”获取

代码在GitHub上

https://github.com/pbharrin/machinelearninginaction
小老板还不点一手关注吗?
在这里插入图片描述
欢迎关注和订阅AI算法与图像处理公众号(AI_study)

不定期更新和分享高质量的文章和学习资料,让我一起进步吧,fighting
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/flyfor2013/article/details/83988028
今日推荐