机器学习----数据准备&特征工程（2）

其他 2018-06-29 12:58:58 阅读次数: 0

一、数据降维

原理，就是采用映射的方法，把高维准换成低维的
降维可能准确度会下降，但是避免了过拟合的现象
可以增加样本个数

常用的降维的方法

1.1 PCA解释及计算步骤

通过某种线性投影，将高维的数据映射到低维的空间中表示，使得方差最大，适用较少的数据维度，尽量保留住较多的数据

步骤
1，各个数据集减去各数据的均值
这里写图片描述

2求特征变量的协方差矩阵
这里写图片描述

3求协方差的特征值和特征向量

这里写图片描述

**4.排序取值
这里写图片描述

5.投影映射
这里写图片描述 **

代码如下

# -*- coding: utf-8 -*-
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"
from  sklearn import datasets
#数据收集
iris = datasets.load_iris()
x=iris.data
y=iris.target
#PCA降维
from sklearn.decomposition import PCA
'''
sklearn.decomposition.PCA(n_components=None,copy = True,whiten=Flase)
n_components：主成分个数
copy:训练时是否复制一份，默认是True
whiten:白化，似的每个特征具有相同的方差
'''
#定义一个PCA模型
pca = PCA(n_components=3)
#fit聚合
pca.fit()
#transform
x_new = pca.fit_transform(x)
print(pca.explained_variance_ratio_)
print(pca.explained_variance_)

####可视化
pca = PCA(n_components=2)
pca.fit(x)
x_new2 = pca.transform(x)
import matplotlib.pyplot as plt
%matplotlib inline
plt.scatter(x_new2[:,0],x_new2[:,1],marker="o",c=y)
plt.show()

1.2线性判别分析（LDA）

原理
这里写图片描述

PCA和LDA的区别
这里写图片描述

代码和PCA类似

二、数据选择

2.1数据选择和降维的差异

这里写图片描述

2.2原因

这里写图片描述

2.3特征选择的方法

这里写图片描述

2.4单特征重要性评估

信息值（IV）
这里写图片描述

趋势分析
这里写图片描述

代码演示
这里写图片描述

猜你喜欢

转载自blog.csdn.net/sakura55/article/details/80714177

机器学习----数据准备&特征工程（2）

机器学习----数据准备&特征工程（1）

机器学习：数据准备和特征工程

机器学习数据特征分析------特征工程

机器学习数据特征分析特征工程

#机器学习--第2章：特征工程

机器学习D2——特征工程

【特征工程】2 机器学习中的数据清洗与特征处理综述

【机器学习】数据预处理与特征工程

机器学习数据表达与特征工程

机器学习特征工程之-特征选择-2

机器学习—特征工程

机器学习特征工程

【机器学习】特征工程

机器学习--特征工程

特征工程（机器学习）

特征工程-机器学习

机器学习——特征工程

机器学习特征工程

机器学习-特征工程

机器学习-----特征工程

机器学习----特征工程

机器学习基础之《特征工程（2）—特征工程介绍、特征抽取》

机器学习折腾记2：数据集、分类以及特征工程

机器学习-Python实践Day3（特征工程--数据预处理2）

学习笔记(55):第二章：特征工程-机器学习前的准备 02

机器学习——【2】史上最全“特征工程“介绍

机器学习中的特征工程

机器学习之特征工程

机器学习-特征工程的方法

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)