1)基础知识预备:概率分布
广义地,它指称随机变量的概率性质,即一个随机变量在概率空间的分布状况
狭义地,它是指随机变量的概率分布函数,定义如下:
对于任意实数a,有: FX(a) = P(X≤a) ,FX(a)即是a的概率分布函数,而 P(X≤a) 则是在随机变量X取值≤a时的所有的概率之和,所以概率分布函数又称为累计概率函数。ps:个人认为叫做累计概率函数更好理解一些啊!!!更详细的剖解请参考 https://www.jianshu.com/p/b570b1ba92bb
1.1)常见的几种分布:
#二项分布:详细请参考:https://zh.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E4%BD%88
二项分布是一种离散型的概率分布。故明思义,二项代表这个随机变量只有两种可能的结果。
掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:
其中,p为正面朝上的概率
#泊松分布:
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数
泊松分布的概率质量函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
#正态分布:
又名高斯分布,是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
若随机变量服从一个位置参数(X的期望)为、尺度参数(X的标准差)为的正态分布,记为:
有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。
累积分布函数是一种概率上更加清楚的方法,请看下边的例子。
正态分布的概率密度函数:
正态分布的累计概率函数(由密度函数表示的):
正态分布的累积分布函数能够由一个叫做误差函数的特殊函数表示:
标准正态分布的累积分布函数习惯上记为,它仅仅是指,时的值,
将一般正态分布用误差函数表示的公式简化,可得:
关于正态分布的几个特征:
a.密度函数关于平均值对称
b.平均值与它的众数(statistical mode)以及中位数(median)同一数值。
c.函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
d.95.449974%的面积在平均数左右两个标准差的范围内。
e.99.730020%的面积在平均数左右三个标准差的范围内。
f.99.993666%的面积在平均数左右四个标准差的范围内。
g.函数曲线的拐点为离平均数一个标准差距离的位置。
关于正态分布的几个性质:
- 如果且与是实数,那么
- 如果与是统计独立的正态随机变量,那么:
- 它们的和也满足正态分布
- 它们的差也满足正态分布.
- 与两者是相互独立的。(要求X与Y的方差相等)
- 如果和是独立正态随机变量,那么:
- 它们的积服从概率密度函数为的分布
- 其中是修正贝塞尔函数(modified Bessel function)
- 它们的比符合柯西分布,满足.
- 它们的积服从概率密度函数为的分布
- 如果为独立标准正态随机变量,那么服从自由度为n的卡方分布。