机器学习|协方差与相关系数|15mins入门|概统学习笔记(十二)
其他
2020-04-01 18:13:02
阅读次数: 0
协方差与相关系数
- 背景:对于多维随机变量,反映分量之间关系的数字特征中,最重要的是协方差和相关系数
1.协方差
-
定义:任意两个随机变量X和Y的协方差,记为
Cov(X,Y)定义为
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
-
性质:
-
Cov(X,Y)=Cov(Y,X)
-
Cov(aX,bY)=abCov(X,Y)a,b是常数
-
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
-
计算协方差公式:
由协方差的定义及期望的性质,可得
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)−E(Y)E(X)+E(X)E(Y)=E(XY)−E(X)E(Y)
可见,若X与Y独立,则
Cov(X,Y)=0
-
随机变量和的方差与协方差的关系
D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(i=1∑nXi)=i=1∑nD(Xi)+2∑i<j∑Cov(Xi,Xj)
若
X1,X2,...,Xn两两独立,则上式化为
D(i=1∑nXi)=i=1∑nD(Xi)
2. 相关系数
-
背景:协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响。例如:
Cov(kX,kY)=k2Cov(X,Y)
为了克服这一缺点,对协方差进行标准化,引入了相关系数
-
定义:设
D(X)>0,D(Y)>0,称
ρXY=D(X)D(Y)
Cov(X,Y)
为随机变量X和Y的相关系数,记
ρXY为
ρ
-
相关系数的性质:
-
∣ρ∣≤1
- X和Y独立时,
ρ=0,但其逆命题不一定成立
- |
ρ|=1,即存在常数
a,b(b=0),使
PY=a+bX=1,即X和Y以概率1线性相关
-
独立与相关的关系:
-
若X与Y独立,则X与Y不相关,但由X与Y不相关,不一定能推出X与Y独立
但若
(X,Y)服从二维正态分布,则独立与不相关等价
-
意义:相关系数刻画了X和Y间”线性相关“的程度
-
考虑以X的线性函数
a+bX来近似表示Y,以均方误差
e=E[Y−(a+bX)]2来衡量以
a+bX近似表达Y的好坏程度。
e值越小表示
a+bX与Y的近似程度越好。通常用微积分中求极值的方法,求出使e达到最小时的a,b。
证明:
e=E[Y−(a+bX)]2=E(Y2)+b2E(X2)+a2−2bE(XY)+2abE(X)−2aE(Y)
{∂a∂e=2a+2bE(X)−2E(Y)=0∂b∂e=2bE(X2)−2E(XY)+2aE(X)=0
解得
{b0=D(X)Cov(X,Y)a0=E(Y)−b0E(X)
这样求出的最佳逼近为
L(X)=a0+b0X
发布了37 篇原创文章 ·
获赞 0 ·
访问量 805
转载自blog.csdn.net/SanyHo/article/details/105186051