【特征相关性分析】对数据集特征进行相关性计算和绘图 - 代码天地

【特征相关性分析】对数据集特征进行相关性计算和绘图

其他 2018-09-22 05:17:07 阅读次数: 0

版权声明：本文为博主原创文章，转载请在文章开头注明出处，作者：ChenVast；原文链接： https://blog.csdn.net/ChenVast/article/details/82802009

当不知道数据集特征的含义时，可直接对数据集特征进行相关性分析，查看特征的相关系数。

让我们开始把！

载入在线实验数据集

from sklearn import datasets
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
iris = datasets.load_iris()

数据简单处理，转化成pandas的DataFrame

irisData = pd.DataFrame(iris.data,columns=iris.feature_names)
irisData.head()

数据看起来不错，继续...

相关性分数计算方法

使用pandas库自带的corr函数，进行相关性分数计算。

DataFrame.corr(method='pearson', min_periods=1)

计算列的成对相关性，不包括NA / null值

参数:

method : {‘pearson’, ‘kendall’, ‘spearman’}

pearson : standard correlation coefficient

皮尔逊：标准相关系数

kendall : Kendall Tau correlation coefficient

kendall：Kendall Tau相关系数

spearman : Spearman rank correlation

spearman：斯皮尔曼等级相关

min_periods : int, optional

每对列所需的最小观察数，以获得有效结果。目前仅适用于皮尔森和斯皮尔曼相关

计算

irisData.corr()

绘图

使用seaborn的heatmap()函数绘制热图

plt.figure(figsize=(10,10))
sns.heatmap(irisData.corr(),annot=True)

越接近于1的特征相关度越高。

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/82802009

【特征相关性分析】对数据集特征进行相关性计算和绘图

数据特征分析-相关性分析

特征相关性分析

数据特征—相关性分析

特征评估---特征相关性分析

R进行相关性分析

特征相关性计算及matlab程序

PCA原理及特征相关性分析

数据特征分析（6）-相关性分析

数据特征分析技能—— 相关性检验

对无相关性的样本特征进行onehot编码

特征工程-相关性检验

数据相关性分析

相关性分析

数据相关性

计算特征相关性的方法，特征提取的方法，如何判断特征是否重要

python数据分析：特征选择与电商搜索相关性预测

机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)

Python数据相关性分析

数据相关性分析方法

汽车销售数据相关性分析

Python 数据相关性分析

计算相关性系数

[Python] 相关性分析

相关性分析散点图

pandas相关性分析

Matlab相关性分析

R对数据做相关性，周期性分析——搭建数据分析平台

seaborn可视化特征的相关性

最小冗余 - 最大相关性（mRMR）特征选择

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)