版权声明:本文为博主原创文章,未经允许,不得转载!欢迎留言附带链接转载! https://blog.csdn.net/qq_15698613/article/details/86478736
1 皮尔逊相关系数(Pearson Correlation Coefficient)
皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母 作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 代表:
2 决定系数:R平方值
决定系数(coefficient of determination),有的教材上翻译为判定系数,也称为拟合优度。是相关系数的平方。表示可根据自变量的变异来解释因变量的变异部分。
如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R^2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定。
R平方值为0.8,则表示回归关系可以解释80%的变异。
2.1 简单线性回归:
相关系数的平方
2.2 多元线性回归:
表达式:R2=SSR/SST=1-SSE/SST
其中:SST=SSR+SSE,SST (total sum of squares)为总平方和,SSR (regression sum of squares)为回归平方和,SSE (error sum of squares) 为残差平方和。
3 R平方也有局限性
当我们人为的向系统中添加过多的自变量,SSE会减少,从而R^2变大。因此我们采用校正R方,惩罚了过多无意义的自变量,R平方的修正方法:
n是样本总数,p是预测个数。