协方差矩阵的意义与见解

协方差矩阵对学统计的来说很重要,本文详细说明其相关知识(计算公式等)以及来历与实质含义。其实质主要是从一维到多维的一个推广。从以下几个点去描述它的来历:

一、低维样本情形的统计量:均值、标准差、方差

二、高维样本情形的统计量::均值、协方差

三、相关复杂概念、问题的解释

一、低维情形的统计量:均值、标准差、方差

假设自然数集中抽取一个含有3个样本的集合  S:=(1,2,3), 我们简记这个集合的一些统计概念: 均值: {\bar S},方差:var(S),标准差: \sigma(S),   依次给出这些概念的公式描述。

均值一般指平均数。平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数关键在于确定“总数量”以及和总数量对应的总份数。对于样本S,其平均值为

{\bar S} = \frac{1+2+3}{3}=2

标准差: 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 

对于我们设的样本S,其标准差为

\sigma(S)=\sqrt{\frac{(1-{\bar S})^2+(2-{\bar S})^2 + (3-{\bar S})^2}{3-1}}=1

方差=标准差的平方。对于我们设的样本S,其方差为:

var(S)=\frac{(1-{\bar S})^2+(2-{\bar S})^2 + (3-{\bar S})^2}{3-1}=1

注: 如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEVP);  如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV);【这一点的理解具体在后面3.1节有详细解释。】

二、高维矩阵情形的统计量:均值、协方差

前面讲的是对于一维样本但往往现实生活中样本的特征是多维的,下面假设有3个样本(3行),每个样本有2个特征(2列):

S=\begin{matrix} 1&2 \\ 2&3 \\ 3&4 \end{matrix}

上面这个样本不妨假设成3个哥们儿:小王、小二和小三, 第一个特征是知识储备量,第二个特征是受女孩子欢迎度。比如:小王知识储备量为1个单位,受欢迎度为2。 面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个知识储备量跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。

首先记第一个特征(第一列)为   S_1:=\{1,2,3\}, 记第二个特征(第二列)为   S_2:=\{2,3,4\}, 很容易计算这两个特征的均值:

 

{\bar S_1} = \frac{1+2+3}{3}=2,{\bar S_2} = \frac{2+3+4}{3}=3.

以及其方差:

var(S_1)=\frac{(1-{\bar S_1})^2+(2-{\bar S_1})^2 + (3-{\bar S_1})^2}{3-1}=1,\\~~~~~ var(S_2)=\frac{(2-{\bar S_2})^2+(3-{\bar S_2})^2 + (4-{\bar S_2})^2}{3-1}=1.

我们仿照方差的定义 来 定义两个特征偏离其均值的程度,记为cov(S_1,S_2)

cov(S_1,S_2)\\ =\frac{(1-{\bar S_1})(2-{\bar S_2})+(2-{\bar S_1})(3-{\bar S_2}) +(3-{\bar S_1})(4-{\bar S_2}) }{2-1}=1

因此协方差矩阵可以写成如下形式:

C=\bigl(\begin{smallmatrix} cov(S1,S1) & cov(S1,S2) \\ cov(S2,S1) & cov(S2,S2) \end{smallmatrix}\bigr).

如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越知识越多就越受女孩子欢迎,那必须的~结果为负值就说明负相关的,越有知识女孩子越讨厌。 如果为0,也是就是统计上说的“相互独立”。

此外,从协方差的定义上我们也可以看出一些显而易见的性质,如自协方差等于方差、交换性等:

cov(S_1,S_1)=var(S_1), cov(S_1,S_2)=cov(S_2,S_1);

三、相关复杂概念、问题的解释

3.1对于前面提到的,为什么对于样本分母要n-1的一个回答:

随机变量的方差描述的是变量的离散程度,

Var(X)=E[(X-\mu)^2]=E(\frac{1}{n}\sum (X_i-\mu)^2)=\sigma^2

而样本方差是对整体方差做的无偏估计:

Var(X)=E[(X-\bar X)^2]=E(\frac{1}{n-1}\sum (X_i-\bar X)^2)=\sigma^2

无偏估计, 上中学时第一次学习样本方差时便对分母n-1感到疑惑,为什么不是n呢?当年没有细究.现在消减一些困惑吧_.

为什么分母为n不行?

注意到公式中使用了最大似然法,用\bar X 来估算整体的均值\mu,

\mathbb S^2 \nonumber &={1\over n}\sum_{i=1}^n(X_i-\bar X)^2

则我们有

\begin{align}E[\mathbb S^2] \nonumber &=E[{1\over n}\sum_{i=1}^n(X_i-\bar X)^2] \\ \nonumber &= E[{1\over n}\sum_{i=1}^n [(X_i-\mu)+(\mu-\bar X)]^2] \\ \nonumber &= E[[{1\over n}\sum_{i=1}^n (X_i-\mu)^2]-(\bar X-\mu)^2] \\ \nonumber &=\text{Var}(X)-E[(\bar X-\mu)^2] \\ \nonumber &= \sigma^2-{1\over n}\sigma^2={n-1\over n}\sigma^2 \\ \nonumber &\le \sigma^2 \nonumber \end{align}

其中,

E[(\bar X-\mu)^2=var(\bar X)=var({1\over n}\sum_{i=1}^n (X_i))\\ ={1\over n^2}\sum_{i=1}^n var (X_i)={1\over n^2} n \sigma^2={1\over n} \sigma^2

可以看到,分母为n时, 对整体方差的估计可能会变小,只有当 \bar X= \mu 时才是无偏估计, 因此我们可以将分母变小来使方差更接近真实值. 那么分母该为多少呢?为什么分母n-1行?

替换式子中Var(X)如下:

\text{Var}(X)=\sigma^2={n\over n-1}E[S^2] = {1\over n-1}\sum_{i=1}^n (X_i-\bar X)

即为无偏估计.

因此样本方差等于总体方差减样本均值的方差。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差。需要做Bessel's correction去修正偏差,让偏差的期望等于0。

当然了,当n很大的时候,其实除以n和除以n-1的区别并不大。随着样本的增多,两者都会收敛到真实的总体方差。

方差是协方差的特殊情况,就是当两个变量x与y相等时候的情况。既然我们已经知道样本方差为什么是除以n-1。那么样本协方差也是一样的道理。

分母是n-1的情况下,估计值是总体方差的无偏估计。分母是n的情况下,值是最大似然估计。

如果觉得样本够大,那么用n-1是不错的,因为在大样本下,参数的方差就算大一点儿也不会多多少,影响也不会大到哪儿去。统计是一门很灵活的学科,不同的数据,会有不同的方法来处理。

3.2 补充材料:极大似然估计的理解

极大似然估计是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,给定一个概率分布:如1000个球有a个黑b个白,而a和b就是我们需要估计的参数。   事件A发生的概率与未知参数a和b有关, 取值不同,则事件A发生的概率P(A|\theta)也不同,当我们在一次试验中事件A发生了,则认为此时的 \theta 应是 a 的一切可能取值中使P(A|\theta)达到最大的那一个,极大似然估计法就是要选取这样的a值作为参数a的估计值,使所选取的样本在被选的总体中出现的可能性为最大。极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。

引用: https://blog.csdn.net/weixin_39849762/article/details/111800019

码字不易, 转载请注明出处。

 

 

猜你喜欢

转载自blog.csdn.net/nobles007820/article/details/113176475