特征选择——卡方检验(使用Python sklearn进行实现) - 代码天地

特征选择——卡方检验(使用Python sklearn进行实现)

其他 2018-08-20 10:24:06 阅读次数: 0

在看这篇文章之前，如果对卡方检验不熟悉，可以先参考：卡方检验

Python有包可以直接实现特征选择，也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。

1. 首先import包和实验数据：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris

#导入IRIS数据集
iris = load_iris()
iris.data#查看数据

结果输出：

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],

2. 使用卡方检验来选择特征

model1 = SelectKBest(chi2, k=2)#选择k个最佳特征
model1.fit_transform(iris.data, iris.target)#iris.data是特征数据，iris.target是标签数据，该函数可以选择出k个特征

结果输出为：

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],

可以看出后使用卡方检验，选择出了后两个特征。如果我们还想查看卡方检验的p值和得分，可以使用第3步。

3. 查看p-values和scores

model1.scores_  #得分

得分输出为：

array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

扫描二维码关注公众号，回复： 2874913 查看本文章

可以看出后两个特征得分最高，与我们第二步的结果一致；

model1.pvalues_  #p-values

p值输出为：

array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])

可以看出后两个特征的p值最小，置信度也最高，与前面的结果一致。

也可以参考官方的帮助文档：selectKbest帮助文档

猜你喜欢

转载自blog.csdn.net/snowdroptulip/article/details/78867053

特征选择——卡方检验(使用Python sklearn进行实现)

卡方检验进行特征选择

特征选择-卡方检验

用python进行列联表卡方检验

卡方检验(Chi_square_test)：原理及python实现

SPSS实现卡方检验

使用sklearn进行数据预处理特征选择

结合sklearn进行特征工程

sklearn：使用树集合进行特征转换

使用sklearn中的Iris植物分类数据集进行特征检验与预测分析

python sklearn使用kmeans对鸢尾花进行分类（简单实现）

使用sklearn进行增量学习

使用sklearn进行交叉验证

使用sklearn进行调参

卡方检验的R语言实现

python卡方CHI特征检验提取关键文本特征

python,sklearn实现PCA

使用sklearn实现baggingclassifier

使用sklearn实现GBDT

使用sklearn实现adaboost

python实现sklearn的基本操作流程，sklearn预处理方法，sklearn基础算法的使用，以及sklearn模型的选择方法。

sklearn:使用完全随机树进行哈希特征转换

特征选择：卡方检验、F 检验和互信息

Python+sklearn对模型进行评分

sklearn实战：使用knn进行回归拟合

使用sklearn简单进行SVM参数优选

使用sklearn进行集成学习——理论

使用sklearn进行机器学习，数据挖掘

使用 sklearn实现线性回归

使用sklearn实现LASSO回归

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)