《特征工程三部曲》之三维度压缩 - 代码天地

《特征工程三部曲》之三维度压缩

编程语言 2019-04-10 13:10:54 阅读次数: 0

1 PCA：更够保持对方差贡献最大的特征。

通过协方差矩阵的特征值分解能给得到数据的主成分，以二维特征为例，两个特征之间可能存在线性关系（例如运动的时速和秒速度），这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系，并去除。因此PCA本质是一种去相关算法。

协方差：度量两个变量的变动的同步程度，也就是度量两个变量的线性相关性，协方差为0代表线性无关。方差是协方差中两个变量相同的时候。

1 最近重构性：样本到这个超平面的距离都足够近

2 最大可分性：样本点到这个超平面的投影都能尽可能的分开

2 SVD(奇异值分解）

矩阵分解方法：

左奇异向量用于压缩行，右奇异向量压缩列，压缩方法均是取奇异值较大的左奇异向量和右奇异向量与原数据C相乘。

PCA 是从特征方向去降维，SVD是从特征和实例两个方向降维。

3 LDA 算法：线性判别式，考虑label，降维后的数据点经可能容易地被区分。

基于线性模型进行特征属性合并的操作，有监督的降维，在sklearn 中的本质是SVD分解的左奇异矩阵乘以原来的矩阵，达到降维实例的目的。

总结： PCA 映射是将一种高温数据合并到低维的过程，样本更具有更大的发散性，LDA考虑了样本的标注，使得不同类别之间的距离最大，可以用于降维和分类。

一般情况下，有类别信息的，可以采用LDA

没有类别信息的，可以用PCA。

猜你喜欢

转载自blog.csdn.net/qq_16236875/article/details/89179159

《特征工程三部曲》之三维度压缩

人工智能反欺诈三部曲——特征工程

《特征工程三部曲》之二数据选择

idea中使用逆向工程----三部曲

机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

CDH5部署三部曲之三：问题总结

shiro安全三部曲

Nginx三部曲（1）

WinDbg 命令三部曲

上升三部曲

项目三部曲

做事三部曲

学习技术三部曲

闲话YOLO三部曲

视图的进化三部曲

Okgo 使用三部曲

mybatis三部曲__入门

递归拓展->三部曲

hdu 三部曲 ROADS

字段分析的三部曲

机房配置三部曲

源码安装三部曲

需求三部曲

认识JSON的三部曲

面试三部曲

线程安全三部曲

Linux安装三部曲

递归解题三部曲

Hadoop三部曲搞起~

docker Docker搭建disconf环境，三部曲之三：细说搭建过程

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)