Person相关系数

衡量两个变量线性相关程度。先画散点图看是否为线性相关，相关系数才有用。

总体：要考察对象的全部个体

样本：从总体中所抽取的一部分个体

用样本的统计量估计总体的统计量

总体Person相关系数

协方差Cov(X,Y)反映X、Y的相关性

Person相关系数剔除了两个变量量纲的影响

ρ_xy=Cov（X，Y）/ σ_x * σ_y

样本Person相关系数

ρ绝对值越接近于1，散列图越接近一条直线，相关性越大。

若XY无关，则ρ为0，反之不能推。

相关系数大小可以按照背景自定义。

验证变量的线性相关性：

导入数据至SPSS中，图形-旧对话框-散点图/点图，做出数据之间的图，若图是以下这种斜着的一条就是线性的：

在MATLAB中计算：最小值，最大值，平均数等。得到描述性统计RESULT

MIN=min(A);
MAX=max(A);
MEAN=mean(A);
MEDIAN=median(A);
SKEWNESS=skewness(A);
KURTOSIS=kurtosis(A);
STD=std(A);
RESULT=[MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]
%RESULT存放描述性统计

[R,p]=corrcoef(A)

R存放相关系数

假设检验

自己提出假设，验证自己的假设是否正确。

置信水平β=1-α：假设成立的概率（一般用90%，95%，99%）

α显著性水平：发生小概率事件（拒绝原假设的概率）

概率密度函数f(x):x发生在此的概率强度 1.f(x)>=0 2.在负无穷到无穷的积分为1。

累计密度函数F(x):F(x)<=P(X<x)

接受域：置信水平内

拒绝域：其他地方。

概率P

第一步：确定原假设H0和备择假设H1（完全相反的两个假设）

双侧检验：~=

单侧检验：>或<

第二步：在原假设成立的条件下，自己构造分布（N、t、F、卡方分布）

统计量只能包含假设的一个未知量Z
第三步：画概率密度函数f(x)

第四步：给一个置信水平β ，求出接受域（查表或用matlab算）

第五步：用已知样本数据带入计算统计量，得到检验值，若检验值在接受域内则接受原假设，反之拒绝。

双侧检验求出的P值要×2再与显著性水平α比较。

显著性检验

相关系数=0则不相关。

显著性检验：检验0和相关系数的差异

相关性显著--相关

相关性不显著--不相关。

计算出Person相关系数r，检验它是否显著的异于0：

第一步：原定假设H0：r=0，备择假设：H1：r~=0

第二步：在一定的条件下可以构造统计量

（t分布是标准正态分布的特例，n趋于无穷时即为标准正态分布）

第三步：将r代入公式得到检验值。

第四步：画出分布的概率密度函数pdf，给定一个置信水平β，找到临界值，画出统计量的接受域和拒绝域

%x=起始值：步长：终值;
%y=tpdf(x,自由度);
plot(x,y,'-')
grid on%画网格

第五步：检验值在拒绝域内，H1成立；在接受域内，H0成立。

p值判断法

得到检验值t*，计算对应概率。

tcdf计算累计概率密度函数。

%检验值对应的p值=（1-tcdf(检验值,自由度)*2）
%双侧检验的p值要乘以2

p<0.01，在99%的置信水平上拒绝原假设；p>0.01，在99%的置信水平无法拒绝原假设

p<0.05，在95%的置信水平上拒绝原假设；p>0.05，在95%的置信水平无法拒绝原假设；

p<0.10，在90%的置信水平上拒绝原假设。p>0.10，在90%的置信水平无法拒绝原假设。

本例拒绝原假设意味着皮尔逊相关系数显著的异于0

显著性标记，空不显著 *在90%上越显著异于0 **95% ***99%

SPSS做相关性分析很方便。