皮尔森相关系数

公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

    皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。

根据以上公式,python3实现代码:

def pearson(vector1, vector2):  
    n = len(vector1)  
    #simple sums  
    sum1 = sum(float(vector1[i]) for i in range(n))  
    sum2 = sum(float(vector2[i]) for i in range(n))  
    #sum up the squares  
    sum1_pow = sum([pow(v, 2.0) for v in vector1])  
    sum2_pow = sum([pow(v, 2.0) for v in vector2])  
    #sum up the products  
    p_sum = sum([vector1[i]*vector2[i] for i in range(n)])  
    #分子num,分母den  
    num = p_sum - (sum1*sum2/n)  
    den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))  
    if den == 0:  
        return 0.0  
    return num/den  
现在,用两个向量测试一下:

vector1 = [2,7,18,88,157,90,177,570]

vector2 = [3,5,15,90,180, 88,160,580]

运行结果为0.998,可见这两组数是高度正相关的。


猜你喜欢

转载自blog.csdn.net/qq_15111861/article/details/80182209