可汗学院统计学17-24课笔记

[第17课] 随机变量介绍

离散随机变量(discrete random variable)
在一定区间内变量取值为有限个,如抛硬币,掷骰子

连续随机变量(continuous random variable)
在一定区间内变量取值为无限个,如明天下雨的概率,在(0,1)之间

random.randint()与np.random.randint()的区别
random.randint()方法里面的取值区间是前闭后闭区间,而np.random.randint()方法的取值区间是前闭后开区间

import random

# 离散随机变量(discrete random variable)
# 如:抛硬币
x = random.randint(0, 1)
print(x)

# 掷骰子
x = random.randint(1, 6)
print(x)


# 连续随机变量(continuous random variable)
x = random.random()
print(x)
1
6
0.7703803681713864

[第18课] 随机变量介绍

摘自《统计学18:随机变量介绍》,略有修改

概率密度函数

  • 随机变量所有值发生概率和等于1
  • 概率密度函数是对连续随机变量而言的.

比如说明天下雨的概率是0.8,那么不下雨的概率是0.2;
在这里插入图片描述

观察密度函数的图,面积才是表示密度函数的概率值.而不是x对应y坐标.

假设曲线为f(x),概率是面积,也就是对函数f(x)的积分:

P ( 0.1 < X < 0.2 ) = 0.1 0.2 f ( x ) d ( x ) P(0.1<X<0.2)=\int_{0.1}^{0.2}f(x)d(x)

其中 + f ( x ) d ( x ) = 1 \int_{-\infty }^{+\infty }{f(x)d(x)}=1

离散的随机变量概率

区别于连续随机变量,离散变量的概率是可以枚举出来的,如掷骰子,有六个离散变量,每个离散变量的概率都是 1 6 1\over6

[第19课] 二项分布1

摘自《统计学19:二项分布1》,略有修改

看一下掷硬币的问题
掷一次硬币正面或者反面发生的概率都是 1 2 \frac{1}{2}

掷五次硬币或者一次掷五个硬币(每个硬币正反独立的,每次硬币独立的,怎么操作都一样.),记出现正面的数量为 X X .

P ( X = 0 ) P(X=0) (出现正面为0次的概率,也就是五次全为反面)?

全为反面只有一种情况,就是第一次投掷为反,第二次为反...

P ( X = 0 ) = 1 2 × 1 2 × 1 2 × 1 2 × 1 2 = 1 32 P(X=0)=\frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2}=\frac{1}{32}

P ( X = 1 ) P(X=1) (出现正面为1次的概率)?

正面为1次有5种情况,就是第一次投掷为正,其他全为反;第二次为正,其他全为反...
每中情况都是 1 32 \frac{1}{32} (出现正面的次数和非正面的次数都是 1 2 \frac{1}{2}

P ( X = 1 ) = 5 × 1 32 = 5 32 P(X=1)=5 \times \frac{1}{32} = \frac{5}{32}
P ( X = 2 ) P(X=2) (出现正面为2次的概率)?

还要枚举吗?好像有点累
分析一下:

  • 先确定一个正面发生的位置,它有5种(第一次投掷为正,第二次为正...),再确定第二个正面发生的位置,第一个记录已经占走了一个位置,还有四个位置选一个为正,有4种.  5 × 4 5 \times 4
  • 刚刚我们先确定了,再确定,多做了排序,也就是同样第二次和第三次为正,但是我们却在刚刚把它记为了两种情况(先找到2位再发现3,和先找到3再发现2)我们要排除我们不必要的排序.  5 × 4 2 \frac{5 \times 4}{2}
  • 每中情况都是 1 32 \frac{1}{32}

P ( X = 2 ) = 5 × 4 2 × 1 32 = 5 16 P(X=2)=\frac{5 \times 4}{2} \times \frac{1}{32} = \frac{5}{16}
P ( X = 3 ) P(X=3)

  • 确定第一个(5个位置选1个),第二个(4个位置选1个),第三个(3个位置选1个) 5 × 4 × 3 5 \times 4 \times 3
  • 排除不必要的排序(3个的排序为 3 × 2 3 \times 2 ).  5 × 4 × 3 3 × 2 \frac{5 \times 4 \times 3}{3 \times 2}
  • 每中情况都是 1 32 \frac{1}{32}

P ( X = 3 ) = 5 × 4 × 3 3 × 2 × 1 32 = 5 16 P(X=3)=\frac{5 \times 4 \times 3}{3 \times 2} \times \frac{1}{32} = \frac{5}{16}
P ( X = 4 ) P(X=4)

  • A 5 4 = 5 × 4 × 3 × 2 A_5^4 = 5 \times 4 \times 3 \times 2
  • A 5 4 A 4 4 = 5 × 4 × 3 × 2 4 × 3 × 2 \frac{A_5^4}{A_4^4} = \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2}
  • 1 32 \frac{1}{32}

P ( X = 4 ) = 5 × 4 × 3 × 2 4 × 3 × 2 × 1 32 = 5 32 P(X=4)=\frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2} \times \frac{1}{32} = \frac{5}{32}
P ( X = 5 ) P(X=5)
P ( X = 5 ) = C 5 5 × 1 32 = 1 32 P(X=5)=C_5^5 \times \frac{1}{32} = \frac{1}{32}

也可以把5次为正理解为0次为反,正反概率相等,那么 P ( X = 5 ) P ( X = 0 ) P(X=5)=P(X=0)

二项分布就是重复n次独立的伯努利试验.
伯努利实验:在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变

[第20课] 二项分布2

摘自《统计学20:二项分布2》,略有修改

随机变量是一种映射关系.还是以上一节投掷硬币情况为例

X = { 0 全为反面 1 1 次为正面 2 2 次为正面 3 3 次为正面 4 4 次为正面 5 全为正面 X= \begin{cases} 0 & \text{全为反面}\\ 1 & \text{有$1$次为正面}\\ 2 & \text{有$2$次为正面}\\ 3 & \text{有$3$次为正面}\\ 4 & \text{有$4$次为正面}\\ 5 & \text{全为正面}\\ \end{cases}

把上概率整理如下图表:
在这里插入图片描述
在这里插入图片描述

如果投掷的次数非常的多,把它们的概率值用曲线描出来,就是一根钟形曲线.在离散中是二项分布,在连续中它是正态分布.

在这里插入图片描述

二项分布是可以被总结出公式的.

还记得上一节我在最后的 P ( X = 5 ) P(X=5) 求解时,把系数(后面是每次独立发生的概率值)写了 C 5 5 C_5^5 吗?

C n m C_n^m 表示从 n n 个元素中挑选出 m m 个元素(无序)的可能.(也可以理解为从 n n 次实验中发生 m m 次同事件的可能)

二项式系数公式

( m n ) = C n m = n ! m ! ( n m ) ! (_m^n)=C_n^m = \frac{n!}{m!(n-m)!}

也可以继续上一节那个分析, A n m A m m \frac{A_n^m}{A_m^m} 记为 C n m C_n^m

其中:
在这里插入图片描述
在这里插入图片描述

有了二项式系数其实就是从 n n 次实验中发生 m m 次同事件的可能种类数,然后它乘一每次事件的概率就是我们求的 P ( X = m ) P(X=m)

那么二项式分布 X B ( n , p ) X~B(n,p) 的公式就来了:

P ( k , n , p ) = P ( X = k ) = C n k p k ( 1 P ) n k P(k,n,p) = P(X=k) = C_n^kp^k(1-P)^{n-k}

[第21课] 二项分布3

摘自《统计学21:二项分布3》,略有修改

来看上一节留下的公式
P ( X = k ) = C n k p k ( 1 p ) n k P(X=k) = C_n^kp^k(1-p)^{n-k}

你可能已经明白了二项系数 C n k C_n^k 什么意思,这里说一下为什么是概率是 p k ( 1 p ) n k p^k(1-p)^{n-k}
可能硬币事件的两种结果让我记住了 1 2 \frac{1}{2} ,那是一个比较特殊的情况.如果把事件转换为掷筛子呢?它就不再是 1 2 \frac{1}{2} , 1 2 \frac{1}{2}

如果问题转换为掷筛子,点数为1或者2则甲胜出,点数为3或者4则乙胜出,点数为5或者6则丙胜出,现在寻找在n次实验中,甲胜出X次的概率?

只关心甲的概率,只需知道是甲赢了,还是输了,并不关心乙或者丙赢了他.现在就是二项分布了,甲赢(点数为1或2),甲不赢(点数不为1或2,即为3,4,5,6).则事件发生的概率分别为甲赢 1 3 \frac{1}{3} ,甲不赢 2 3 \frac{2}{3}
注意二项分布的特点,每次投掷都是独立的,不受之前实验的影响,每次结果都是甲赢 1 3 \frac{1}{3} ,甲不赢 2 3 \frac{2}{3}

那么求 P ( X = 0 ) P(X=0) ,假设投掷了8次:

  • 通过上一节我们知道系数 C 8 0 C_8^0
  • 甲赢的次数为0,那么这种可能就是全输的概率,就是每次概率是 2 3 \frac{2}{3} ,则 P ( X = 0 ) = C 8 0 × ( 2 3 ) 8 P(X=0)=C_8^0 \times (\frac{2}{3})^8

P ( X = 1 ) P(X=1)

  • 系数 C 8 1 C_8^1
  • 甲赢的次数为1,那么这种可能就是1次为胜,7次为输的概率.即8次事件中,发生了1次概率是 1 3 \frac{1}{3} 事件和 ( 8 1 ) (8-1) 次概率为 2 3 \frac{2}{3} 事件,则 P ( X = 1 ) = C 8 1 × ( 1 3 ) 1 × ( 2 3 ) 8 1 P(X=1)=C_8^1 \times (\frac{1}{3})^{1} \times (\frac{2}{3})^{8-1}

P ( X = 2 ) P(X=2)

  • 系数 C 8 2 C_8^2
  • 发生了2次概率是 1 3 \frac{1}{3} 事件和 ( 8 2 ) (8-2) 次概率为 1 1 3 1-\frac{1}{3} 事件(两种结果,总的概率为1),则 P ( X = 2 ) = C 8 2 × ( 1 3 ) 2 × ( 1 1 3 ) 8 2 P(X=2)=C_8^2 \times (\frac{1}{3})^{2} \times (1-\frac{1}{3})^{8-2}

沿着这个方法走下去,就会发现如何去利用公式了.

[第22课] 二项分布4

这一节是介绍用Excel绘制二项分布,详情请看《统计学22:二项分布4》

[第23课] 期望值E(X)

摘自《统计学23:期望值E(X)》,略有修改

给出一个总体,一组数: 3, 3, 3, 4, 5

它的平均数是:  3 + 3 + 3 + 4 + 5 5 = 18 5 = 3.6 \frac{3+3+3+4+5}{5}=\frac{18}{5}=3.6

我们可以换一种方式来看,里面有3个3,1个4,1个5: 3 ( 3 ) + 1 ( 4 ) + 1 ( 5 ) 5 = 3 5 × 3 + 1 5 × 4 + 1 5 × 5 = 60 \frac{3(3)+1(4)+1(5)}{5}=\frac{3}{5}×3+\frac{1}{5}×4+\frac{1}{5}×5 = 60%×3+20%×4+20%×5

频率

观察这个式子,60%×3+20%×4+20%×5,这里没有表示每个数字出现的次数,只是它出现的频率:

3的频率是60%,4的频率是20%,5的频率是20%.计算是1.8+0.8+1=3.6

知道3,4,5每个数字相对的频率,也就是占总体额百分比,就可以计算除均值.

[第24课] 二项分布的期望值

摘自《统计学24:二项分布的期望值》,略有修改
假设随机变量X表示n次实验的次数,其中每次成功的概率是p.

E ( X ) = n p E(X) = np

在二项分布中,期望值可以看成是最可能得到的那个结果.

假设投篮的命中概率为40%,投10次.
那么 E ( X ) = n p = 10 × 40 % = 4 E(X) = np = 10 \times 40\% =4

可以理解为命中概率为40%,那么投10次,可能4次命中.

回顾二项式概率的公式:

P ( X = k ) = C n k p k ( 1 p ) n k P(X=k) = C_n^kp^k(1-p)^{n-k}

期望值公式:

E ( X ) = k = 0 n k P ( X = k ) = k = 0 n C n k k p k ( 1 p ) n k = 0 C n 0 p 0 ( 1 p ) n 0 + 1 C n 1 p 1 ( 1 p ) n 1 + + n C n n p n ( 1 p ) n n = 1 C n 1 p 1 ( 1 p ) n 1 + + n C n n p n ( 1 p ) n n = k = 1 n C n k p k ( 1 p ) n k \begin{aligned} E(X) &= \sum_{k=0}^nkP(X=k) \\ &=\sum_{k=0}^nC_n^kkp^k(1-p)^{n-k}\\ &=0C_n^0p^0(1-p)^{n-0}+1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n}\\ &=1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n} \\ &=\sum _{k=1}^nC_n^kp^k(1-p)^{n-k}\\ \end{aligned}

代入二项式系数:

C n k = n ! k ! ( n k ) ! C_n^k=\frac{n!}{k!(n-k)!}

得到:

E ( X ) = k = 1 n n ! k ! ( n k ) ! k p k ( 1 p ) n k = k = 1 n n ! k ( k 1 ) ! ( n k ) ! k p k ( 1 p ) n k = k = 1 n n ! ( k 1 ) ! ( n k ) ! p k ( 1 p ) n k = k = 1 n n ( n 1 ) ! ( k 1 ) ! ( n k ) ! p p k 1 ( 1 p ) n k = n p k = 1 n ( n 1 ) ! ( k 1 ) ! ( n k ) ! p k 1 ( 1 p ) n k \begin{aligned} E(X) &=\sum _{k=1}^n \frac{n!}{k!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{k(k-1)!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n(n-1)!}{(k-1)!(n-k)!} pp^{k-1}(1-p)^{n-k}\\ &=np\sum _{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k} \end{aligned}

a = k 1 , b = n 1 a=k-1,b=n-1 ,则 n k = b a n-k=b-a ,得到:

E ( X ) = n p a = 0 b ( b ) ! a ! ( b a ) ! p a ( 1 p ) b a = n p a = 0 b C b a p a ( 1 p ) b a = n p \begin{aligned} E(X) &=np\sum _{a=0}^b \frac{(b)!}{a!(b-a)!} p^{a}(1-p)^{b-a}\\ &=np\sum_{a=0}^b C_b^a p^{a}(1-p)^{b-a}\\ &= np \end{aligned}

a = 0 b C b a p a ( 1 p ) b a \sum\limits_{a=0}^b C_b^a p^{a}(1-p)^{b-a} 表示一个二项分布的概率和,和应该为1

主要参考资料:

视频:《可汗学院统计学》
文章:csdn shangboerds 学习笔记
Jent’s Blog 学习笔记(后来发现的,写得很好,推荐)

发布了154 篇原创文章 · 获赞 349 · 访问量 71万+

猜你喜欢

转载自blog.csdn.net/Leytton/article/details/103730081