机器学习基础知识之相关性分析

相关性分析定义

相关性分析一般是指通过对两种或两种以上的变量数据进行数学分析来确定两种或两种以上的变量数据之间的相关密切程度。由此定义我们可以得知相关性分析的目的在于衡量变量数据之间的相关密切程度,分析对象为两种或两种以上的变量数据,分析方法主要为数学统计方法。
相关性分析一般用于各个领域的大数据分析过程,包括发展不同数据之间的正相关性或负相关性、度量不同数据之间的强弱关系如完全相关或不完全相关、分析数据之间的关系从而建立模型以完成预测等。常见的数据相关性分析方法有图表相关性分析、协方差分析、相关系数分析以及回归分析。

1、图表相关性分析

由于在对数据进行观察时,数据量一般较大且数据的变化幅度难以衡量,因此倘若单纯从数据的角度去观察单个数据的变化趋势以及多种数据之间的联系是很难实现的,而图表相关性分析则可以轻松的完成上述目的。图表相关性分析法是一种通过绘制图表的方式达到了解数据的发展趋势以及联系的方法,这种方法最大的特点在于操作简单,同时它也是目前应用最广的方法之一,在我们常见的股票走势图、天气变化图等都是利用了这一方法。

2、协方差分析

在对协方差分析进行介绍前,首先需要了解方差的定义,通常方差是用来度量某一个变量或一组数据的离散程度,它表示某一个变量或一组数据的离散程度,其计算公式如下:
在这里插入图片描述

其中n表示样本的数量,x ̅表示样本的均值。
协方差分析则是在方差的基础上建立而来的,此方法专门用来衡量两个变量的总体误差,其计算公式如下:
在这里插入图片描述

其中x ̅、y ̅表示两个不同的样本的均值,n表示样本的数量,两个样本的数量需相同。通常来说,当两个变量有着相同的变化趋势时,则计算获得的协方差为正数,此时可以称这两个变量正相关;当两个变量的变化趋势相反时,计算获得的协方差为负数,则这两个变量之间负相关;而当两个变量之间相互独立,不存在相关性时,计算的协方差值应为0。
上述协方差计算公式只能对两个变量进行相关性分析,当需要对两个以上的变量进行相关性分析时,则需要使用协方差矩阵进行计算,矩阵公式如下:
在这里插入图片描述

其中x、y和z分别表示三个不同的变量。
协方差只能通过计算来确定不同的变量之间是否存在相关性,即计算的协方差为正值则正相关,负值则负相关,但是不同的变量之间的相关程度则无法进行表示。

3、相关系数分析

在对协方差分析进行介绍时可以了解到此分析方法无法对不同变量之间的相关程度进行表示,而相关系数分析则可以完成这一点。相关系数分析是通过计算来表示不同变量之间的相关密切程度,其计算公式如下所示:
在这里插入图片描述

其中cov(x,y)为变量x与变量y之间的协方差,σ_x表示变量x的标准差,σ_y表示变量y的标准差,标准差的计算公式如下:
在这里插入图片描述

相关系数的计算结果ρ_xy在-1到1之间,当取值为时1时,表示这两个变量之间完全正相关,当取值为-1时,表示这两个变量之间完全负相关,当取值为0时,则表示这两个变量之间没有相关性,另外计算结果越趋近于0,则变量之间的相关密切程度越弱。
上述计算方式为相关系数分析的基本方法,而目前常用的相关系数计算方式主要有三种,它们分别为皮尔森线性相关系数(Pearson Linear Correlation Coefficient,简称PLCC)、斯皮尔曼秩相关系数(Spearman Rank-order Correlation Coefficient,简称SRCC)以及肯德尔秩相关系数(Kendall Rank-order Correlation Coefficient,简称KRCC)。
皮尔森线性相关系数主要用来描述两个变量的线性相关性,其计算公式如下所示,其计算结果与相关性之间的关系与前面的相关系数一样,该系数的计算结果区间在-1到1之间且结果的绝对值越大,变量之间的相关性越大。
在这里插入图片描述

斯皮尔曼秩相关系数主要用来衡量两个变量之间的依赖性,它利用单调方程来对两个统计变量的相关性进行评价,当计算结果为1或-1时,表示两个变量完全单调相关,计算变量之间的斯皮尔曼秩相关系数相当于计算计算变量数据秩次之间的皮尔森线性相关系数,斯皮尔曼秩相关系数的计算公式如下:
在这里插入图片描述

肯德尔秩相关系数与前面两种相关系数最大的区别在于它是用于对分类变量进行相关性分析的相关系数,在其计算过程中还需要统计两个变量之间一致元素对的个数。其计算公式如下:
在这里插入图片描述

其中C表示具有一致性的元素对数,D表示具有不一致性的元素对数。
变量x与变量y可以分别视作为两个元素集合,它们中的第i个元素与第j个元素分别为x_i、y_i以及x_j、y_j,当同时存在x_i>x_j和y_i>y_j或x_i<x_j和y_i<y_j时,则这一对元素具有一致性,当同时存在x_i>x_j和y_i<y_j或x_i<x_j和y_i>y_j时,这一对元素具有不一致性,而当出现相同的情况时,则这对元素既不具有一致性也不具有不一致性。

4、回归分析

回归分析是一种表示两种或两种以上变量关系的统计学方法,它同时使用自变量和因变量来表示两个变量之间的相互关系。当表示两种变量之间关系时,通常使用一元线性回归方程来表示,当表示多种变量之间关系时,则使用多元线性回归方差来表示。一元线性回归的表示方式如下:
在这里插入图片描述

其中x为自变量,y为因变量,b_0表示方程的截距,b_1表示方程的斜率,方程的截距与斜率需要通过将自变量与因变量的具体数值代入公式后计算获得。同理,多元线性回归的表示方式如下所示,其中自变量的数量为两个以上,与之对应的每个自变量均有一个斜率需要计算获得。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42051846/article/details/129440842
今日推荐