相关性学习笔记

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析，反应的线性相关程度的量，比如：流量和收入，收入和顾客、订单等的关系，就具有相关性。

相关性分为：正向相关、负相关、不相关（不存在线性关系、可能存在其他关系）、强相关、弱相关

为什么要对相关系数进行显著性检验？
因为相关系数通常是根据样本数据计算出来的。由于样本是随机性的，相关系数是一个随机变量，其取值具有一定的偶然性。两个不相关的变量，其相关系数也可能较高，这在统计上称为虚假相关。要从样本相关系数判断总体中是否也有这样的关系，则需要对相关系数进行统计检验后才能得出结论。

相关性高对模型结果影响：多重共线性、无显著变量，如果是多元线性模型或者逻辑回归的话，会造成变量系数与实际意义矛盾的结果

只有显著性水平显著时，相关系数才是可信的，相关性检验correlation test是对变量之间是否相关以及相关的程度如何所进行的统计检验。变量之间的相关的程度用相关系数r表征。当r大于给定显著性水平a和一定自由度f下的相关系数临界值T"a、时，表示变量之间在统计上存在相关关系。否则，则不存在相关关系。也就说只看相关系数是说明不了问题的，还得看显著性，而且还是显著性水平显著的时候，就可以说明相关系数论证的点可信的。

显著性检验（significance test）就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对我们对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异，以及这种差异是否显著的方法。
常把一个要检验的假设记作H0,称为原假设（或零假设） (null hypothesis) ，与H0对立的假设记作H1，称为备择假设(alternative hypothesis) 。
⑴ 在原假设为真时，决定放弃原假设，称为第一类错误，其出现的概率通常记作α；
⑵ 在原假设不真时，决定不放弃原假设，称为第二类错误，其出现的概率通常记作β
(3)α+β 不一定等于1 [1] 。
通常只限定犯第一类错误的最大概率α，不考虑犯第二类错误的概率β。这样的假设检验又称为显著性检验，概率α称为显著性水平。
最常用的α值为0.01、0.05、0.10等。一般情况下，根据研究的问题，如果放弃真假设损失大，为减少这类错误，α取值小些，反之，α取值大些。

猜你喜欢