随机变量的概率分布学习笔记

作者: kagula

日期: 2020-11-26

前言

本文的主要内容是概率分布的入门复习, 聚焦几个重要的基础分布律, 探索下它们的应用.

正文

随机变量

随机变量是实数同某次实验结果的映射, 分为离散型随机变量和连续型随机变量.

若随机变量的取值能跟整数一一对应则称为离散型随机变量, 反之为连续型随机变量.

离散型随机变量的重要属性是分布律, 连续型随机变量的重要属性是概率密度和分布函数.

离散型随机变量的分布律(又称为分布列, 概率分布)对应连续型随机变量的概率密度, 很多情况下也可以用概率密度代替分布律这种叫法.

离散型随机变量的分布律

分布律

定义:

设X为离散型随机变量, 可能取值为 $X_1, X_2,\cdots,X_k,\cdots,$ 且

P{X= $x_k$ }= $p_k$ , k=1,2, …,

则称 $p_k$ 为X的分布律(或分布列, 或概率分布).

性质:

$p_k$ ≧0, k=1,2, …,
$\sum_{k=1}^{inf}{p_k}=1$

上图, 列出了三种重要的常用离散型随机变量分布及三者之间的关系, 其中最重要的是二项分布, 0-1分布和泊松分布都是它的特殊形式.

当二项分布中在变量只取0或1时, 就是0-1分布.

当二项分布中的n特别大,例如大于等于20, p特别小, 例如小于等于0.05, 为了节约计算资源, 就可以用泊松分布代替二项分布, 算出二项分布的近似值.

二项分布可以用来表达做了n次实验, 每次实验发生的结果只有两种可能1或0, 发生1的概率设为p, 发生0在概率为1-p, 其中有m<=n次结果为1或0的概率.

假设下面实例的概率分布服从二项分布, 则下面的情景可以用二项式分布来计算:

有n个人服用了某特效药, 该特效药有效的概率为p, 则至少有m个人治愈的概率是多少?
有一批产品不合格率为p, 检查n件产品, 其中有m件产品不合格的概率.
有n部机器独立运转, 每台机器的故障率为p, 则至少有一台机器出故障的概率是多少.

连续型随机变量的分布律

连续型随机变量的分布主要有均匀分布, 指数分布, 正态分布三种, 它们都有相应的概率密度和分布函数. 各种连续型随机变量通过概率密度和分布函数描述客观世界.

均匀分布

适用场景

某路公交车每n分钟到达车站, 乘客在n分钟内任一时刻到达车站, 求在指定时间间隔内等到某路公交车的概率.

买n张不同号码的彩票, 至少有一张中奖的概率.

指数分布

指数分布常被用作各种”寿命”的分布, 如电子元件的使用寿命、动物的寿命、电话的通话时间、顾客在某一服务系统接受服务的时间.

正态分布和标准正态分布

μ=0, σ=1的正态分布称为标准正态分布, 在考试的时候求正态分布可以先把正态分布转为标准正态分布, 通过查询标准正态分布表, 然后再计算, 然后得到正态分布.

标准正态分布记为Ф(x).

正态分布是最常见的一种分布, 在实际问题中, 许多随机变量服从或近似服从正态分布, 例如, 一个地区的男性成年人的身高和体重; 测量某个物理量所产生的随机误差;一批原棉纤维的长度;某地区的年降水量等, 它们都服从正态分布.

中心极限定理表明: 一个变量如果由大量独立、微小且均匀的随机因素的叠加生成,那么它就近似服从正态分布.

后言

数据是无限的, 用有限的数据推测无限的数据, 这就是分布函数(数学模型)存在的意义.

这里要注意的是对原始数据的采集要避免幸存者偏差, 观察者驳论等陷阱.

备注

一一对应

一一对应可以看成是”一对一函数”. 集合A(定义域)中的任意一个元素恰好对应B集合(值域)中的一个元素, 假设x, y属于集合A, 若f(x)不等于f(y), 必然有x不等于y. 所以相对于一对多, 多对一, 它是种约束条件较严格的映射关系.

附

中英文对照

随机变量 random variable (v. r.)

二项分布 binomial distribution

泊松分布 Poisson distribution

分布函数 cumulative distribution function (cdf)

概率密度 possibility density function (pdf)

正态分布 normal distribution

MATLAB相关

常用函数

组合 nchoosek

正态概率密度函数 normpdf

正态分布函数 normcdf

可以使用 ”help 函数名” 命令, 在matlab中查看具体使用方式.

代码段

%二项式分布

N=100;

k=0:N;

pdf=binocdf(k,N,0.5);

pdf2=binocdf(k,N,0.6);

h=plotyy(k,pdf,k,pdf2);

set(h(1),'Ycolor',[0,0,1]);

set(get(h(1),'Ylabel'),'String','p=0.5');

set(h(2),'Ycolor',[1,0,0]);

set(get(h(2),'Ylabel'),'String','p=0.6');

xlabel('k');

grid off;

box off;

%1到5的均匀分布密度函数

ezplot(@(x)unifpdf(x,1,5),[0,6])

%1到5的均匀分布分布函数

a=1;

b=5;

x=0:1:6;



clear y

for i=1:length(x)

    y(i)=(x(i)-a)/(b-a);

    if y(i)>1

        y(i)=1;

    end

    if y(i)<0

        y(i)=0;

    end

end

plot(x,y)

axis([0 length(x)-1,0,1.2]) %分别设置X axis和Y axis的范围.

set(gca,'XTick',0:1:length(x)) %设置X axis的刻度为1.

%指数密度

x=0:0.2:10;

y1=exppdf(x);

y2=exppdf(x,2);

hold on;%hold on是当前轴及图像保持而不被刷新，准备接受此后将绘制的图形，多图共存

plot(x,y1,'b');

plot(x,y2,'g');

%title('指数分布密度函数图像');

%xlabel('x');

%ylabel('y');

% 画标准正态分布概率密度函数

x = -10:0.1:10;

y1 = normpdf(x, 0, 1);

y2 = normpdf(x, 0, 3);

%grid on;

%axis([-20 20,0,0.15]) %分别设置X axis和Y axis的范围.

plot(x,y1,'r');

hold on

plot(x,y2,'b');

box off

% 画标准正态分布函数

xbound = 10;

x = -xbound:0.1:xbound;

y1 = normcdf(x, 0, 1);

y2 = normcdf(x, 0, 3);

%grid on;

%axis([-20 20,0,0.15]) %分别设置X axis和Y axis的范围.

plot(x,y1,'r');

hold on

plot(x,y2,'b');

box off %去掉边界上顶部和右边的线

axis([-xbound xbound,0,1.1]) %分别设置X axis和Y axis的范围.

UML Class图

上面的UML class样例图转载自某个网站, 具体出自哪里忘记了.

参考资料

[1]<<Probability & Statistics>> 2009版干晓蓉武汉大学出版社

[2]<<概率论与数理统计(二)>> 2006版孙洪祥柳金甫辽宁大学出版社