python数据挖掘笔记——相关分析 - 代码天地

python数据挖掘笔记——相关分析

其他 2019-03-14 17:11:02 阅读次数: 0

相关性分析：

对两个或多个具备相关性的元素变量进行分析，从而衡量两个变量之间的密切相关程度，相关性的元素之间要存在一定的联系或概率才可以进行相关性分析。

相关性分析的几个方法：

图示初判(散点图，基本呈一条直线分布）
Pearson相关系数（皮尔逊相关系数）
Sperman秩相关系数（斯皮尔曼相关系数）

相关系数：
相关系数是变量间关联程度的最基本的测度之一。
基本特征：

方向：

正相关，两个变量变化方向相同。
负相关，两个变量变化方向相反。
量级：
低度相关：0<=|r|<0.3
中度相关：0.3<=|r|<0.8
高度相关：0.8<=|r|<=1

下面是代码演示：

#构建样本数据
data1=pd.Series(np.random.rand(100)*100).sort_values()#标准正态分布100个样本
data2=pd.Series(np.random.rand(100)*50).sort_values()
data=pd.DataFrame({'values1':data1.values,'values2':data2.values})
print(data.head())
#计算皮尔逊相关系数
#均值
data1MEAN=np.mean(data1)
data2MEAN=np.mean(data2)
#标准差
data1SD=np.std(data1)
data2SD=np.std(data2)
#Z分数
Zdata1=(data['values1']-data1MEAN)/data1SD
Zdata2=(data['values2']-data2MEAN)/data2SD
#相关系数
r=np.sum(Zdata1*Zdata2)/(len(data1))
r
    values1   values2
0  0.638332  2.292015
1  1.709476  2.300971
2  1.938157  4.131932
3  3.200516  4.922981
4  3.212151  5.056043
Out[91]: 0.9941237467740188

也可以直接调用pandas的内置函数计算：

data.corr()
Out[92]: 
          values1   values2
values1  1.000000  0.994124
values2  0.994124  1.000000

或者Numpy的内置函数：

np.corrcoef(data['values1'], data['values2'])
Out[4]: 
array([[1.        , 0.98719845],
       [0.98719845, 1.        ]])

猜你喜欢

转载自blog.csdn.net/weixin_42695959/article/details/84887291

python数据挖掘笔记——相关分析

Python数据挖掘实战——相关分析

【笔记】python数据分析与挖掘实战

python数据挖掘与分析

python学习笔记-数据挖掘（数据分析）

《Python数据分析与挖掘实战》笔记（三）：数据探索

python数据分析与挖掘实战学习笔记（二）

python数据分析与挖掘实战学习笔记（一）

Python数据分析与挖掘

学习笔记(03):零基础搞定Python数据分析与挖掘-数据分析与挖掘的区别

学习笔记(01):零基础搞定Python数据分析与挖掘-数据分析与挖掘的区别

python数据挖掘相关扩展库

《python数据分析和数据挖掘》——时间序列分析学习笔记

学习笔记(02):零基础搞定Python数据分析与挖掘-数据分析的流程

python笔记29:数据分析之相关分析

python 数据挖掘（3）-- 数据特征分析

Python爬虫数据分析与数据挖掘！

python-数据分析与数据挖掘

Python数据分析-数据挖掘

大数据分析与挖掘课程笔记

数据挖掘笔记(6)-时间序列分析

数据分析和数据挖掘相关模块

《python数据分析和数据挖掘》——ID3决策树学习笔记

学习笔记(15):零基础搞定Python数据分析与挖掘-数据的汇总

学习笔记(14):零基础搞定Python数据分析与挖掘-数据的读取（三）

《Python数据分析与挖掘实战》笔记（四）：数据预处理

python数据挖掘_Json结构分析

【Python 数据分析】jieba文本挖掘

Python数据挖掘——文本分析

Python数据分析与挖掘（一）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)