05_data降维 of 特征工程【day1】 - 代码天地

05_data降维 of 特征工程【day1】

其他 2019-04-17 16:54:47 阅读次数: 0

1、data降维

1、what？

　　维度（数组的维度）

　　降维：维度（特征的数量） 3个特征----> 2个特征

　　

2、data降维方法

　　1. 特征选择

　　2. 主成分分析

2、特征选择

1、reason of 特征选择

　　

　　

2、what is 特征选择？

　　

3、主要方法

　

扫描二维码关注公众号，回复： 5924118 查看本文章

　

4、varianceThreshold 删除低方差的特征

1.sklearn特征选择api

　　　　sklearn.feature_selection.VarianceThreshold

2.语法

　　

3.流程

　　

4.代码

def var():
    """
    特征选择--删除低方差的特征
    :return: None
    """
    # var = VarianceThreshold(threshold=0.0)  # 删除特征相同的data
    var = VarianceThreshold(threshold=1.0)
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)
    return None

if __name__ == '__main__': var()

5.意义

　　删除差不多相同的特征data

3、PCA（主成分分析）

1、what is PCA

　　

　　

2、三维-----> 二维

　　所有data信息并未损耗太多

高维度数据容易出现的问题

　　特征相关

　

找到最好的箭头？

　　

PCA目的：简化dataSet

3、公式计算（了解）

4、人脸特征主成分分析

5、PCAdemo

1、语法

　　一般保留90%以上的信息

2、流程

　　

3、代码

def pac():
    """
    主成分分析 进行 特征降维
    :return: None
    """
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
    print(data)
    return None if __name__ == '__main__': pac()

是原data的 90%的信息

4、探究：用户对物品类别的喜好细分降维

kaggle比赛题，预测用户对物品类别的喜好

　　https://www.kaggle.com/c/instacart-market-basket-analysis

　　

data　　

　　

1、合并各张表到一张表中

3、进行主成分分析

134简化到 27

5、jupyter notebook的安装和打开

安装非常简单，只需要在终端输入：

　　pip install jupyter

打开jupyter notebook 也只需要在终端输入：

　　jupyter notebook

运行上面的命令之后，你将看到类似下面这样的输出：

如上图，它打开了一个端口，并且会在你的浏览器中打开这个页面，主目录是图中的那个directory(可能第一次打开没有这个目录)。

　　

点击New，选择python3

6、其他降维方法

7、

维度特征数量有几百个用PCA

猜你喜欢

转载自www.cnblogs.com/venicidd/p/10724477.html

05_data降维 of 特征工程【day1】

04_day1_data降维

Data Analysis Day1

特征工程——数据降维

特征工程之降维

【特征工程】数据降维

07 特征工程 - 特征降维 - PCA

[机器学习]特征工程：特征降维

PCA降维：特征降维

特征选择与降维

特征降维

降维与特征选择

Sklearn - 特征降维

python之sklearn-特征工程-1.5 特征降维

VarianceThreshold、pearsonr、PCA、LDA(特征工程之特征降维)

机器学习入门（四）：特征工程——特征降维

机器学习基础之《特征工程（4）—特征降维》

2019-05-11 java学习日记day1

Big-data:Hadoop背景及集群部署（day1）

特征选择与特征降维

运维人员的核心职责（笔记）day1

Linux运维实训day1

特征选择与降维1--特征选择

机器学习特征工程之数据降维

降维1

数据降维，特征选择

【机器学习】特征降维

机器学习-特征降维

Kmeans特征降维方法

工程实训DAY1

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)