一、预备知识
1.1 切比雪夫不等式
设
E
X
EX
E X 是事件的期望、
D
X
DX
D X 是事件的方差,对于任意给定的正数
ε
ε
ε ,都有下面的不等式成立:
P
(
∣
X
−
E
X
∣
≥
ε
)
≤
D
X
ε
2
P(|X-EX| ≥ ε) ≤ \frac{DX}{ε^2}
P ( ∣ X − E X ∣ ≥ ε ) ≤ ε 2 D X 我们如何理解这个不等式呢?首先我们知道,期望
E
X
EX
E X 可以表征样本的均值。那么按照常理来讲,事件一般都会发生在均值附近。那么,切比雪夫不等式说明的就是:发生的事件离均值的距离超过
ε
ε
ε 的概率,小于某一个值。
1.2 马尔可夫不等式
1.3 依概率收敛
我们在学习微积分的时候,已经了解过 “ 收敛 ” 这个词了,但是,今天我们要讲的收敛,前面还带了个 “依概率”。我们下面来解释解释,如果有:
P
(
∣
X
n
−
Y
∣
≥
ε
)
=
0
P(|X_n - Y| ≥ ε) = 0
P ( ∣ X n − Y ∣ ≥ ε ) = 0 那么,我们就说
X
n
(
X
1
,
X
2
,
⋯
,
X
n
)
X_n(X_1, X_2, \cdots, X_n)
X n ( X 1 , X 2 , ⋯ , X n ) 依概率收敛于 Y。
二、大数定律
2.1 切比雪夫弱大数定律
条件:
X
1
,
X
2
,
⋯
X_1, X_2, \cdots
X 1 , X 2 , ⋯ 为独立的随机变量,
E
[
X
i
]
=
μ
E[X_i] = μ
E [ X i ] = μ ,
D
[
X
i
]
≤
C
D[X_i] ≤ C
D [ X i ] ≤ C ,那么有:
lim
n
→
∞
P
(
∣
X
1
+
X
2
+
⋯
+
X
n
n
−
μ
∣
≥
ε
)
=
0
\lim_{n \to ∞}P(|\frac{X_1 + X_2 + \cdots + X_n}{n} - μ|≥ ε) = 0
n → ∞ lim P ( ∣ n X 1 + X 2 + ⋯ + X n − μ ∣ ≥ ε ) = 0 不等式里面的
μ
μ
μ ,可以理解为是随机变量期望的均值。 因此,我们就可以这样写:
lim
n
→
∞
P
(
∣
1
n
∑
i
=
1
n
X
i
−
1
n
∑
i
=
1
n
E
[
X
i
]
∣
≥
ε
)
=
0
\lim_{n \to ∞}P(|\frac{1}{n}\sum_{i=1}^nX_i - \frac{1}{n}\sum_{i=1}^nE[X_i] |≥ ε) = 0
n → ∞ lim P ( ∣ n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E [ X i ] ∣ ≥ ε ) = 0 我们看,这不正是依概率收敛的定义式吗!也就是说:对于独立的随机变量,若期望存在且方差有界,那么其样本的均值就收敛于期望的均值。
2.2 辛钦弱大数定律
这里的条件和切比雪夫的有一、、不一样,这里要求
X
1
,
X
2
,
⋯
X_1, X_2, \cdots
X 1 , X 2 , ⋯ 独立同分布。
E
[
X
i
]
=
μ
E[X_i] = μ
E [ X i ] = μ ,那么就有:
lim
n
→
∞
P
(
∣
1
n
∑
i
=
1
n
X
i
−
1
n
∑
i
=
1
n
E
[
X
i
]
∣
≥
ε
)
=
0
\lim_{n \to ∞}P(|\frac{1}{n}\sum_{i=1}^nX_i - \frac{1}{n}\sum_{i=1}^nE[X_i] |≥ ε) = 0
n → ∞ lim P ( ∣ n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E [ X i ] ∣ ≥ ε ) = 0
在做大数定律的题目时,我们需要搞清楚随机变量
X
i
X_i
X i 是什么,
E
[
X
i
]
,
D
[
X
i
]
E[X_i], D[X_i]
E [ X i ] , D [ X i ] 是什么,然后才想办法去凑出
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑ i = 1 n X i 的形式。
三、中心极限定理
其实中心极限定理就说了一个事儿:大量的独立同分布的随机变量和 的极限分布为正态分布
我们一步步分析中心极限定理: 首先,大量独立同分布的随机变量的和表示为:
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
i = 1 ∑ n X i 如果对于一个随机变量而言,其期望为
E
[
X
i
]
E[X_i]
E [ X i ]
那么,
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑ i = 1 n X i 的期望可以计算得到为:
∑
i
=
1
n
E
[
X
i
]
\sum_{i=1}^nE[X_i]
∑ i = 1 n E [ X i ]
另外,
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑ i = 1 n X i 的方差为:
D
(
∑
i
=
1
n
X
i
)
=
∑
i
=
1
n
D
[
X
i
]
D(\sum_{i=1}^nX_i) = \sum_{i=1}^nD[X_i]
D ( ∑ i = 1 n X i ) = ∑ i = 1 n D [ X i ] (独立才可以这样做)
由于中心极限定理说明:大量独立随机变量的和的极限分布是正态分布,即:
∑
i
=
1
n
X
i
∼
N
(
n
μ
,
n
σ
2
)
\sum_{i=1}^nX_i\sim N(nμ, nσ^2)
i = 1 ∑ n X i ∼ N ( n μ , n σ 2 ) 我们回顾一下对于一个随机变量标准化的过程:
X
i
−
μ
σ
2
=
X
i
−
μ
σ
∼
N
(
0
,
1
)
\frac{X_i - μ}{\sqrt{σ^2}} = \frac{X_i - μ}{σ}\sim N(0,1)
σ 2
X i − μ = σ X i − μ ∼ N ( 0 , 1 )
如果我们把
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑ i = 1 n X i 令为变量 Y,那么对他做标准化也是一样的道理,所以我们得到:
∑
i
=
1
n
X
i
−
∑
i
=
1
n
E
[
X
i
]
∑
i
=
1
n
D
[
X
i
]
∼
N
(
0
,
1
)
\frac{\sum_{i=1}^nX_i - \sum_{i=1}^nE[X_i]}{\sqrt{\sum_{i=1}^nD[X_i]}}\sim N(0,1)
∑ i = 1 n D [ X i ]
∑ i = 1 n X i − ∑ i = 1 n E [ X i ] ∼ N ( 0 , 1 )
下面我们引入定理:
3.1 林德伯格-莱维定理
假设我们的随机变量
X
i
X_i
X i 相互独立,同分布,且都具有有限的数学期望
μ
μ
μ ,方差
σ
2
σ^2
σ 2 ,那么
∑
i
=
1
n
E
[
X
i
]
=
n
μ
\sum_{i=1}^nE[X_i] = nμ
∑ i = 1 n E [ X i ] = n μ 、
∑
i
=
1
n
D
[
X
i
]
=
n
σ
2
\sum_{i=1}^nD[X_i] =nσ^2
∑ i = 1 n D [ X i ] = n σ 2 所以:
lim
n
→
∞
P
(
∑
i
=
1
n
X
i
−
n
μ
n
σ
2
≤
x
)
=
Φ
0
(
x
)
\lim_{n\to ∞}P(\frac{\sum_{i=1}^nX_i - nμ}{\sqrt{nσ^2}} ≤ x) = Φ_0(x)
n → ∞ lim P ( n σ 2
∑ i = 1 n X i − n μ ≤ x ) = Φ 0 ( x )
其实,如果
X
i
X_i
X i 是一个0-1 分布,那么也是类似的,
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑ i = 1 n X i 就是一个二项分布
∼
B
(
1
,
p
)
\sim B(1, p)
∼ B ( 1 , p ) ,也是服从中心极限定理的。这给了我们一个启发:还记得我们很早之前说:二项分布贼难算,我们可以用泊松分布近似嘛。现在我们又多了一种新的手段——标准正态分布。
下面我解释一下应用场合:
在
n
n
n 较大,
p
p
p 较小,且
n
p
np
n p 不太大(一般小于10)的时候,可以用泊松近似
在
n
n
n 非常大(通常是几千几万的),我们就用正态分布近似。