机器学习|协方差与相关系数|15mins入门|概统学习笔记（十二）

协方差与相关系数

定义：任意两个随机变量X和Y的协方差，记为 $Cov(X,Y)$ 定义为
$Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$
性质：
1. $Cov(X,Y)=Cov(Y,X)$
2. $Cov(aX,bY)=abCov(X,Y) \quad a,b 是常数$
3. $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
计算协方差公式:

由协方差的定义及期望的性质，可得
$Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} \\ =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) \\ =E(XY) - E(X)E(Y)$
可见，若X与Y独立，则 $Cov(X,Y)=0$
随机变量和的方差与协方差的关系
$D(X+Y)=D(X)+D(Y)+2Cov(X,Y) \\ D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)+2\sum\sum_{i<j}Cov(X_i,X_j)$
若 $X_1,X_2,...,X_n$ 两两独立，则上式化为
$D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)$

背景：协方差的大小在一定程度上反映了X和Y相互间的关系，但它还受X与Y本身度量单位的影响。例如：
$Cov(kX,kY)=k^2Cov(X,Y)$
为了克服这一缺点，对协方差进行标准化，引入了相关系数
定义：设 $D(X)>0,D(Y)>0$ ,称
$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}$
为随机变量X和Y的相关系数，记 $\rho_{XY}$ 为 $\rho$
相关系数的性质：
1. $|\rho|\leq 1$
2. X和Y独立时， $\rho=0$ ，但其逆命题不一定成立
3. | $\rho$ |=1,即存在常数 $a,b(b\neq 0)$ ，使 $P{Y=a+bX}=1$ ,即X和Y以概率1线性相关
独立与相关的关系：
- 若X与Y独立，则X与Y不相关，但由X与Y不相关，不一定能推出X与Y独立
  
  但若 $(X,Y)$ 服从二维正态分布，则独立与不相关等价
意义：相关系数刻画了X和Y间”线性相关“的程度
考虑以X的线性函数 $a+bX$ 来近似表示Y，以均方误差 $e=E{[Y-(a+bX)]^2}$ 来衡量以 $a+bX$ 近似表达Y的好坏程度。

e值越小表示 $a+bX$ 与Y的近似程度越好。通常用微积分中求极值的方法，求出使e达到最小时的a,b。

证明：
$e=E{[Y-(a+bX)]^2}=E(Y^2)+b^2E(X^2)+a^2-2bE(XY)+2abE(X)-2aE(Y)$

$\begin{cases} \frac{\partial e}{\partial a}=2a+2bE(X)-2E(Y)=0 \\ \frac{\partial e}{\partial b}=2bE(X^2)-2E(XY)+2aE(X)=0 \end{cases}$
解得
$\begin{cases} b_0=\frac{Cov(X,Y)}{D(X)} \\ a_0=E(Y)-b_0E(X) \end{cases}$
这样求出的最佳逼近为
$L(X)=a_0+b_0X$

发布了37 篇原创文章 · 获赞 0 · 访问量 805

私信关注