机器学习特征工程之皮尔森相关系数 pearson correlation of features - 代码天地

机器学习特征工程之皮尔森相关系数 pearson correlation of features

企业开发 2018-08-13 18:38:28 阅读次数: 0

示例图：

皮尔森相关系数为了确定每个特征之间是否紧密相关，如果很相关就属于重复特征，可以去除。我们输入机器学习模型中的每个特征都独一无二，这才是最佳。

python实现代码

import seaborn as sns #图表模块

import matplotlib.pyplot as plt #绘图模块库

colormap = plt.cm.RdBu # 绘图库中的颜色查找表。比如A1是红色,A2是浅蓝色。这样一种映射关系

plt.figure(figsize=(14,12))#创建一个新的图表，参数是尺寸，单位为英寸。

plt.title('Pearson Correlation of Features', y=1.05, size=15) #给图表一个标题~~

sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0,square=True, cmap=colormap, linecolor='white', annot=True) #将皮尔森系数值画成图表形式。

代码解释：

这里的train.astype(float).corr() 中的train 是python pandas模块中DateFrame结构，这里存储着的是机器学习模型的训练数据，然后通过.corr()求皮尔森相关系数方法，计算出相关系数。

corr()是correlation的缩写，中文意思为相关。

算法底层原理：

皮尔森系数公式为：

cov(X,Y) 是求X数组和Y数组的协方差。

协方差公式为：

当协方差值>0时，表明两个数组正相关

当协方差值=0时，表明两个数不相关

当协方差值<0时，表明两个数组负相关。

回到皮尔森相关系数，现在我们已经知道了协方差计算出了相关性，但是只知相关性，而无法度量它强和弱，

如何度量强和弱呢？

这是用协方差/（X数组的标准差*Y数组的标准差)，

这个公式的作者是否从余弦距离得到的启发呢？如下图

最终我们计算出了-1 到 1 的取值结果。

公式求的值对应下面图表（省略了x轴和y轴，自行脑补。。），例如1和-1 他们就是线性相关，一个是正相关，一个负相关，而0就是没有任何关系的

这样我们就求得了两个数组之间的关系程度，排除强相关特征，降低机器学习数据维度，从而得到更好的模型。

——————————————————————————————————

猜你喜欢

转载自blog.csdn.net/CreateABetter/article/details/81540957

机器学习特征工程之皮尔森相关系数 pearson correlation of features

【ML基础】皮尔森相关系数(Pearson correlation coefficient)

皮尔森相关系数、皮尔逊相关系数（Pearson correlation coefficient）的存在性问题

皮尔逊相关系数丨Pearson’s correlation coefficient

Python三种方法计算皮尔逊相关系数（Pearson correlation coefficient）

ML之PPMCC：PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

pearson相关系数

Pearson 相关系数扩展学习

皮尔森Pearson相关系数 VS 斯皮尔曼Spearman相关系数

统计学三大相关系数之皮尔森（pearson）相关系数

［推荐算法］Pearson Correlation Similarity 的python实现

Hackerrank Day 7: Pearson Correlation Coefficient I

机器学习中的度量——协方差、相关系数（Pearson 相关系数）

【机器学习】马修斯相关系数（Matthews correlation coefficient）

pearson相关系数计算

【笔记】pearson相关系数

pearson相关系数算法

Pearson(皮尔逊)相关系数

Excel Pearson相关系数

Pearson相关系数与Spearman相关系数

PCC值average pearson correlation coefficient计算方法

[Statistics] Comparison of Three Correlation Coefficient: Pearson, Kendall, Spearman

Pearson 相关系数--最佳理解及相关应用

三大统计学相关系数（pearson皮尔森、spearman斯皮尔曼、kendall肯德尔）

SPSS——相关分析——Pearson简单相关系数 SPSS——相关分析——Pearson简单相关系数

python 计算 Pearson 线性相关系数

Python计算皮尔逊 pearson相关系数

Pearson相关系数R代码实现

皮尔逊Pearson相关系数python代码实现

[学习笔记] [机器学习] 8. 聚类算法（聚类算法：K-means、K-means++；特征降维：Pearson相关系数、Spearman相关系数、PCA主成分分析）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)