Python数据挖掘实战——相关分析

继续补以前拉下的债~~~

一、相关性指标的研究意义
1.1相关系数(Correlation coefficient):

    相关系数是变量间关联程度的最基本测度之一

1.2相关分析(Correlation analysis)

    是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

二、相关系数的基本特征
2.1方向:

    正相关(positive correlation):两个变量变化方向相同

    负相关(negative correlation):两个变量变化方向相反

2.2量级(magnitude):

    低度相关:0≤| r | ≤ 0.3
    中度相关:0.3≤| r | ≤ 0.8

    高度相关:0.8≤| r | ≤ 1


散点分部在一条直线周围==>变量存在线性相关关系。

三、相关系数的计算

Zx = (每个变量中的值 - 该变量的均值)  除以(标准差)

3.2案例实战:

四、代码案例:
4.1numpy案例:

import numpy

X = [
    12.5, 15.3, 23.2, 26.4, 33.5, 
    34.4, 39.4, 45.2, 55.4, 60.9
]
Y = [
    21.2, 23.9, 32.9, 34.1, 42.5, 
    43.2, 49.0, 52.8, 59.4, 63.5
]

#均值
XMean = numpy.mean(X);
YMean = numpy.mean(Y);

#标准差
XSD = numpy.std(X);
YSD = numpy.std(Y);

#z分数
ZX = (X-XMean)/XSD;
ZY = (Y-YMean)/YSD;

#相关系数
r = numpy.sum(ZX*ZY)/(len(X));

#直接调用Python的内置的相关系数的计算方法
numpy.corrcoef(X, Y)  

4.2Pandas案例

import pandas;

X = [
    12.5, 15.3, 23.2, 26.4, 33.5, 
    34.4, 39.4, 45.2, 55.4, 60.9
]
Y = [
    21.2, 23.9, 32.9, 34.1, 42.5, 
    43.2, 49.0, 52.8, 59.4, 63.5
]

data = pandas.DataFrame({
    'X': X, 
    'Y': Y
})
data.corr()

?查看安斯库姆四重奏

猜你喜欢

转载自blog.csdn.net/zhuoyue65/article/details/80356646