概率论与随机过程

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Harrytsz/article/details/83099497

概率论与随机过程

标签(空格分隔): 机器学习基础


一、概率与分布


1.1条件概率与独立事件

1.条件概率:已知 A A 事件发生的条件下 B B 发生的概率,记作 P ( B A ) P(B|A) ,它等于事件 A B AB 的概率相对于事件 A A 的概率,即:

P ( B A ) = = P ( A B ) P ( A ) P(B|A) = = \frac{P(AB)}{P(A)}
其中必须有 P ( A ) > 0 P(A) > 0

2.条件概率分布的链式法则:对于 n n 个随机变量 X 1 , X 2 , . . . , X n X_{1},X_{2},...,X_{n} ,有:
P ( X 1 , X 2 , . . . , X n ) = P ( X 1 ) i = 2 n P ( X i X 1 , . . . , X i 1 ) P(X_{1},X_{2},...,X_{n}) = P(X_{1}) \prod_{i=2}^{n}P(X_{i}|X_{1},...,X_{i-1})

3.两个随机变量 x , y x,y 相互独立的数学描述:
x X , y Y , P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) \forall x \in X, \forall y \in Y, P(X =x,Y=y) = P(X=x)P(Y=y)
记作: x y x \perp y

4.两个随机变量 x , y x,y 关于随机变量 z z 条件独立的数学描述:

x X , y Y , z Z \forall x \in X, \forall y \in Y, \forall z \in Z P ( X = x , Y = y Z = z ) = P ( X = x Z = z ) P ( Y = y Z = z ) P(X=x,Y=y|Z=z) = P(X=x|Z=z)P(Y=y|Z=z)
记作: x y z x \perp y | z

1.2联合概率分布

1.定义 x x y y 的联合分布为:
P ( a , b ) = P { x a , y b } , < a , b < + . P(a,b) = P\left \{ x \leqslant a, y \leqslant b \right \}, -\infty < a,b < + \infty .

2. x x 的分布可以从联合分布中得到:
P x ( a ) = P { x a } = P { x a , y } = P ( a , ) , < a < + . P_{x}(a) = P\left \{x \leqslant a \right \} = P\left \{ x \leqslant a, y \leqslant \infty \right \} = P(a, \infty), - \infty < a < + \infty .
类似的, y y 的分布可以从联合分布中得到:
P y ( b ) = P { y b } = P { x , y b } = P ( , b ) , < b < + . P_{y}(b) = P\left \{y \leqslant b \right \} = P\left \{ x \leqslant \infty, y \leqslant b \right \} = P(\infty , b), - \infty < b < + \infty .

3.当 x x y y 都是离散随机变量时,定义 x x y y 的联合概率质量函数为:
p ( x , y ) = P { X = x , Y = y } p(x,y) = P\left \{ X=x, Y=y\right \}
x x y y 的概率质量函数分布为:
p x ( x ) = y : p ( x , y ) > 0 p ( x , y ) p_{x}(x) = \sum _{y:p(x,y) > 0} p(x,y) p y ( y ) = x : p ( x , y ) > 0 p ( x , y ) p_{y}(y) = \sum _{x:p(x,y) > 0} p(x,y)

4.当 x x y y 联合地连续时,即存在函数 p ( x , y ) p(x,y) ,使得对于所有的实数集合 A A B B 满足:
P { x A , y B } = B A p ( x , y ) d x d y P\left \{ x \in A, y \in B\right \} = \int_{B} \int_{A}p(x,y)dxdy
则函数 p ( x , y ) p(x,y) 称为 x x y y 的概率密度函数。

扫描二维码关注公众号,回复: 3698464 查看本文章
  • 联合分布为:
    P ( a , b ) = P { x a , y b } = a b p ( x , y ) d x d y P(a,b) = P\left \{ x \leqslant a, y \leqslant b \right \} = \int_{-\infty}^{a} \int _{-\infty}^{b} p(x,y)dxdy
  • x x y y 的概率密度函数以及分布函数分别为:
    P x ( a ) = a p ( x , y ) d x d y = a p x ( x ) d x P_{x}(a) = \int_{-\infty}^{a} \int_{-\infty}^{\infty}p(x,y)dxdy = \int_{-\infty}^{a}p_{x}(x)dx
    P y ( b ) = b p ( x , y ) d x d y = b p y ( y ) d y P_{y}(b) = \int_{-\infty}^{\infty} \int_{-\infty}^{b}p(x,y)dxdy = \int_{-\infty}^{b}p_{y}(y)dy
    p x ( x ) = p ( x , y ) d y p_{x}(x) = \int_{-\infty}^{\infty}p(x,y)dy
    p y ( y ) = p ( x , y ) d x p_{y}(y) = \int_{-\infty}^{\infty}p(x,y)dx

二、期望


1.期望:(是概率分布的泛函,函数的函数)

  • 离散型随机变量 x x 的期望:
    E [ x ] = i = 1 x i p i E[x] = \sum_{i=1}^{\infty}x_{i}p_{i}
    若级数不收敛,则期望不存在。
  • 连续性随机变量 x x 的期望:
    E [ x ] = x p ( x ) d x E[x] = \int_{-\infty}^{\infty}xp(x)dx
    若极限不收敛,则期望不存在。

2.期望描述了随机变量的平均情况,衡量了随机变量 x x 的均值。

3.定理:设 y = g ( x ) y = g(x) 均为随机变量, g ( ) g(·) 是连续函数:

  • x x 为离散型随机变量,若 y y 的期望存在,则:
    E [ y ] = E [ g ( X ) ] = i = 1 g ( x i ) p i E[y] = E[g(X)] = \sum _{i=1}^{\infty}g(x_{i})p_{i}
  • x x 为连续性随机变量,若 y y 的期望存在,则:
    E [ y ] = E [ g ( X ) ] = g ( x ) p ( x ) d x E[y] = E[g(X)] = \int_{-\infty}^{\infty}g(x)p(x)dx

该定理的意义在于:当求 E ( y ) E(y) 时,不必计算出 y y 的分布,只需要利用 x x 的分布即可。该定理可以推广至两个或者两个以上随机变量的情况。此时:
E [ Z ] = E [ g ( x , y ) ] = g ( x , y ) p ( x , y ) d x d y E[Z] = E[g(x,y)] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y)p(x,y)dxdy
上述公式也记作:
E x P [ g ( x ) ] = x g ( x ) p ( x ) E_{x\sim P}[g(x)] = \sum_{x}g(x)p(x) E x P [ g ( x ) ] = g ( x ) p ( x ) E_{x\sim P}[g(x)] = \int g(x)p(x) E x , y P [ g ( x ) ] = g ( x , y ) p ( x , y ) d x d y E_{x,y\sim P}[g(x)] = \int g(x,y)p(x,y)dxdy

4.期望性质:

  • 常数的期望就是常数本身。
  • 对常数 C C 有:
    E [ C x ] = C E [ x ] E[Cx] = CE[x]
  • 对两个随机变量 x , y x,y ,有:
    E [ x + y ] = E [ x ] + E [ y ] E[x + y] = E[x] + E[y]
    该结论可以推广到任意有限个随机变量之和的情况。
  • 对两个相互独立的随机变量,有:
    E [ x y ] = E [ x ] E [ y ] E[xy] = E[x]E[y]
    该结论可以推广到任意有限个相互独立的随机变量之积的情况。

三、方差


3.1 方差

1.对随机变量 X X ,若 E [ ( X E [ X ] ) 2 ] E[(X - E[X])^{2}] 存在,则称它为 X X 的方差,记作 V a r [ X ] Var[X] X X 的标准差为方差的开平方。
即:
V a r [ X ] = E [ ( X E [ X ] ) 2 ] Var[X] = E[(X - E[X])^{2}]
σ = V a r [ X ] \sigma = \sqrt {Var[X]}

  • 方差度量了随机变量 X X 与期望值偏离的程度,衡量了 X X 取值分散程度的一个尺度。
  • 由于绝对值 X E ( X ) |X - E(X)| 带有绝对值,不方便运算,因此采用平方来计算。又因为 X E ( X ) 2 |X-E(X)|^{2} 是一个随机变量,因此对它取期望,即得 x x 与期望值偏离的均值。

2.根据定义可知:
V a r [ x ] = E [ ( X E [ X ] ) 2 ] = E [ X 2 ] ( E [ X ] ) 2 Var[x] = E[(X - E[X])^{2}] = E[X^{2}] - (E[X])^{2} V a r [ f ( X ) ] = E [ ( f ( X ) E [ f ( X ) ] ) 2 ] Var[f(X)] = E[(f(X) - E[f(X)])^{2}]

3.对于一个期望为 μ \mu ,方差为 σ 2 , σ 0 \sigma ^{2}, \sigma \neq 0 的随机变量 X X ,随机变量 X = x μ σ X^{*} = \frac{x - \mu}{\sigma} 的数学期望为 0 0 , 方差为 1 1 。称 X X^{*} X X 的标准化变量。

4.方差的性质:

  • 常数的方差恒为 0 0
  • 对常数 C C V a r [ C x ] = C 2 V a r [ x ] Var[Cx] = C^{2}Var[x]
  • 对两个随机变量 x , y x,y ,有: V a r [ x + y ] = V a r [ x ] + V a r [ y ] + 2 E [ ( x E [ x ] ) ( y E [ y ] ) ] Var[x + y] = Var[x] + Var[y] + 2E[(x - E[x])(y - E[y])]
    x x y y 相互独立时,有 V a r [ x + y ] = V a r [ x ] + V a r [ y ] Var[x + y] = Var[x] + Var[y] 。可以推广至任意有限多个相互独立的随机变量之和的情况。
  • $Var[x] = 0 $ 的充要条件是 x x 以概率 1 1 取常数。

3.2 协方差与相关系数

3.3 协方差矩阵

四、大数定律及中心极限定理


4.1 切比雪夫不等式

4.2 大数定理

4.3 中心极限定理

五、不确定性来源


六、常见概率分布


6.1 均匀分布

6.2 二项分布

6.3 高斯分布

6.3.1 一维正态分布

6.3.2 多维正态分布

6.4 指数分布

6.5 拉普拉斯分布

6.6 狄拉克分布

6.7多项式分布与狄利克雷分布

6.8 混合概率分布

七、先验分布与后验分布

八、测度论

九、信息论


猜你喜欢

转载自blog.csdn.net/Harrytsz/article/details/83099497