机器学习|协方差与相关系数|15mins入门|概统学习笔记(十二)

协方差与相关系数

  • 背景:对于多维随机变量,反映分量之间关系的数字特征中,最重要的是协方差和相关系数

1.协方差

  • 定义:任意两个随机变量X和Y的协方差,记为 C o v ( X , Y ) Cov(X,Y) 定义为
    C o v ( X , Y ) = E { [ X E ( X ) ] [ Y E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}

  • 性质:

    1. C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X)
    2. C o v ( a X , b Y ) = a b C o v ( X , Y ) a , b Cov(aX,bY)=abCov(X,Y) \quad a,b 是常数
    3. C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)
  • 计算协方差公式:

    由协方差的定义及期望的性质,可得
    C o v ( X , Y ) = E { [ X E ( X ) ] [ Y E ( Y ) ] } = E ( X Y ) E ( X ) E ( Y ) E ( Y ) E ( X ) + E ( X ) E ( Y ) = E ( X Y ) E ( X ) E ( Y ) Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} \\ =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) \\ =E(XY) - E(X)E(Y)
    可见,若X与Y独立,则 C o v ( X , Y ) = 0 Cov(X,Y)=0

  • 随机变量和的方差与协方差的关系
    D ( X + Y ) = D ( X ) + D ( Y ) + 2 C o v ( X , Y ) D ( i = 1 n X i ) = i = 1 n D ( X i ) + 2 i < j C o v ( X i , X j ) D(X+Y)=D(X)+D(Y)+2Cov(X,Y) \\ D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)+2\sum\sum_{i<j}Cov(X_i,X_j)
    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 两两独立,则上式化为
    D ( i = 1 n X i ) = i = 1 n D ( X i ) D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)

2. 相关系数

  • 背景:协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响。例如:
    C o v ( k X , k Y ) = k 2 C o v ( X , Y ) Cov(kX,kY)=k^2Cov(X,Y)
    为了克服这一缺点,对协方差进行标准化,引入了相关系数

  • 定义:设 D ( X ) > 0 , D ( Y ) > 0 D(X)>0,D(Y)>0 ,称
    ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}
    为随机变量X和Y的相关系数,记 ρ X Y \rho_{XY} ρ \rho

  • 相关系数的性质:

    1. ρ 1 |\rho|\leq 1
    2. X和Y独立时, ρ = 0 \rho=0 ,但其逆命题不一定成立
    3. | ρ \rho |=1,即存在常数 a , b ( b 0 ) a,b(b\neq 0) ,使 P Y = a + b X = 1 P{Y=a+bX}=1 ,即X和Y以概率1线性相关
  • 独立与相关的关系:

    • 若X与Y独立,则X与Y不相关,但由X与Y不相关,不一定能推出X与Y独立

      但若 ( X , Y ) (X,Y) 服从二维正态分布,则独立与不相关等价

  • 意义:相关系数刻画了X和Y间”线性相关“的程度

  • 考虑以X的线性函数 a + b X a+bX 来近似表示Y,以均方误差 e = E [ Y ( a + b X ) ] 2 e=E{[Y-(a+bX)]^2} 来衡量以 a + b X a+bX 近似表达Y的好坏程度。

    e值越小表示 a + b X a+bX 与Y的近似程度越好。通常用微积分中求极值的方法,求出使e达到最小时的a,b。

    证明:
    e = E [ Y ( a + b X ) ] 2 = E ( Y 2 ) + b 2 E ( X 2 ) + a 2 2 b E ( X Y ) + 2 a b E ( X ) 2 a E ( Y ) e=E{[Y-(a+bX)]^2}=E(Y^2)+b^2E(X^2)+a^2-2bE(XY)+2abE(X)-2aE(Y)

    { e a = 2 a + 2 b E ( X ) 2 E ( Y ) = 0 e b = 2 b E ( X 2 ) 2 E ( X Y ) + 2 a E ( X ) = 0 \begin{cases} \frac{\partial e}{\partial a}=2a+2bE(X)-2E(Y)=0 \\ \frac{\partial e}{\partial b}=2bE(X^2)-2E(XY)+2aE(X)=0 \end{cases}
    解得
    { b 0 = C o v ( X , Y ) D ( X ) a 0 = E ( Y ) b 0 E ( X ) \begin{cases} b_0=\frac{Cov(X,Y)}{D(X)} \\ a_0=E(Y)-b_0E(X) \end{cases}
    这样求出的最佳逼近为
    L ( X ) = a 0 + b 0 X L(X)=a_0+b_0X

发布了37 篇原创文章 · 获赞 0 · 访问量 805

猜你喜欢

转载自blog.csdn.net/SanyHo/article/details/105186051