继续补以前拉下的债~~~
一、相关性指标的研究意义
1.1相关系数(Correlation coefficient):
相关系数是变量间关联程度的最基本测度之一
1.2相关分析(Correlation analysis)
是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
二、相关系数的基本特征
2.1方向:
正相关(positive correlation):两个变量变化方向相同
负相关(negative correlation):两个变量变化方向相反
2.2量级(magnitude):
低度相关:0≤| r | ≤ 0.3
中度相关:0.3≤| r | ≤ 0.8
高度相关:0.8≤| r | ≤ 1
散点分部在一条直线周围==>变量存在线性相关关系。
三、相关系数的计算
Zx = (每个变量中的值 - 该变量的均值) 除以(标准差)
3.2案例实战:
四、代码案例:
4.1numpy案例:
import numpy X = [ 12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9 ] Y = [ 21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5 ] #均值 XMean = numpy.mean(X); YMean = numpy.mean(Y); #标准差 XSD = numpy.std(X); YSD = numpy.std(Y); #z分数 ZX = (X-XMean)/XSD; ZY = (Y-YMean)/YSD; #相关系数 r = numpy.sum(ZX*ZY)/(len(X)); #直接调用Python的内置的相关系数的计算方法 numpy.corrcoef(X, Y)
4.2Pandas案例
import pandas; X = [ 12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9 ] Y = [ 21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5 ] data = pandas.DataFrame({ 'X': X, 'Y': Y }) data.corr()
?查看安斯库姆四重奏