期望, 方差, 协方差,标准差

期望, 方差, 协方差,标准差

期望

概率论中描述一个随机事件中的随机变量的平均值的大小可以用数学期望这个概念,数学期望的定义是实验中可能的结果的概率乘以其结果的总和。

定义

设P(x) 是一个离散概率分布,自变量的取值范围为{ x 1 , x 2 , . . . , x n }。其期望被定义为:

E ( x ) = k = 1 n x k P ( x k )

设P(x) 是一个连续概率密度函数,其期望为:
E ( x ) = + x p ( x ) d x

性质

期望服从线性性质,因此线性运算的期望等于期望的线性运算。

E ( a x + b y + c ) = a E ( x ) + b E ( y ) + c

这个性质可以推广:
E ( k = 1 n a i x i + c ) = k = 1 n a i E ( x i ) + c

函数的期望:
离散
E ( f ( x ) ) = k = 1 n f ( x k ) P ( x k )

连续
E ( f ( x ) ) = + f ( x ) p ( x ) d x

但是,函数的期望不等于期望的函数,即E(f(x))≠f(E(x)) 。

设C为常数: E(C)=C
设C为常数: E(CX)=CE(X)
加法:E(X+Y)=E(X)+E(Y)
当X和Y相互独立时,E(XY)=E(X)E(Y)
(注意,X和Y的相互独立性可以通过下面的“协方差”描述)

意义

数学期望可以用于预测一个随机事件的平均预期情况。

方差

方差是在概率论和统计方差衡量随机变量或一组数据时的离散程度的度量,换句化说如果想知道一组数据之间的分散程度的话就可以使用方差来表示。

统计学方差

定义: 在统计描述中,方差用来计算每一个变量与总体均值之间的差异。为避免出现离均差总和为0, 离均差平均和受样本含量的影响。统计学采用平均离均差平方来描述变量的变异程度。意思应该就是为了避免有的数据和均值的差值是正数,有的是负数,他们相加会相互抵消,所以用平方的形式来衡量。

公式

σ 2 = i = 1 N ( X μ ) 2 N

其中 σ 2 为总体方差, X 为变量, μ 为整体均值, N 为总体例数。

样本方差

由于在实际环境中没有办法穷举所有例子, 所以只能找出部分样本数据,基于这部分样本进行测算。可以把公式转换为:

S 2 = i = 1 n ( X i μ ) 2 n 1

其中 S 2 为样本的方差, μ 为采集样本的均值, n 为样本的个数.

概率论方差

在概率论中, 设X是一个离散型随机变量。
1. 定义: 在概率分布中, 设X是一个离散型的随机变量,若 E ( ( X E ( X ) ) 2 ) 存在,则称它为X的方差,记为 D ( X ) , V a r ( X ) . 其中 E ( X ) X 的期望, X 是变量值。
2. 离散型随机变量方差计算公式:
D ( X ) = E ( ( X E ( X ) ) 2 ) = E ( X 2 ) ( E ( X ) ) 2
3. 连续型变量X, 其定义域(a, b),概率密度函数为f(x), 连续型随机变量X方差计算公式:
D ( X ) = a b ( x μ ) 2 f ( x )

标准差(Standard Deviation)

定义

又叫均方差, 是离均差平方的算数平方根。标准差能体现一个数据集的离散程度,平均数相同的两组数,标准差未必相同。

公式

σ = = i = 1 N ( X μ ) 2 N

标准差的意义

标准差和方差都是用来衡量样本离散程度的量,那么为什么要有标准差呢? 因为方差和样本的量纲不一样。换句话说不在一个层次,怎么理解这个层次,从公式来看方差是样本和均值的平方和的平均。这里有一个平方运算,这是导致量纲不在一个层次的原因。而标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。

协方差(Covariance)

方差/ 标准差描述的是一维数据集合的离散程度, 但世界上现象普遍是多维数据描述的,那么很自然就会想到现象和数据的相关程度,以及各维度间相关程度。
比如,一个产品卖的好不好有很多因素构成,比如产品质量,价格等。那么价格质量之间是否由相关性呢?这个问题就可以用协方差来解决。

公式

期望值分别为E(X), E(Y)的两个变量X,Y的协方差
C o n v ( X , Y ) = E [ ( X E ( X ) ) ( Y E ( Y ) ) ]
= E ( X Y ) 2 E ( X ) E ( Y ) + E ( X ) E ( Y )
= E ( X X Y 0 Y ) E ( X ) E ( Y )

协方差性质

  1. 同一个变量的协方差等于其方差Con(X, X) = Var(X)
  2. Con(aX, bY) = abCon(X, Y) a, b 为常量
  3. Con(X1 + X2, Y) = Con(X1, y) + Con(X2, y)

相关系数

协方差作为描述X和Y相关程度的量,在同一物理量纲下有一定作用。但同样的两个量采用不同的量纲使他们的协方差在数值上表现很大的差异,故引入如下概念:

η = C o r r ( X , Y ) = C o n v ( X , Y ) V a r ( X ) V a r ( Y )

相关关系

  1. 相关性是一个衡量线性独立的无量纲数, 其取值在[ -1, 1] 之间。
  2. 相关性 corr = 1 时称完全线性相关。
  3. 相关性 corr = -1 时称完全线性负相关。
  4. 相关性 corr = 0 时称不相关。

猜你喜欢

转载自blog.csdn.net/siyue0211/article/details/80309799