概率论-1

样本和总体

样本:Sample 总体:Population 样本均值:Sample mean , X with a line over 总体均值:Populaton mean, u, miu

方差

衡量数据集集中趋势:均值,众数,中位数 衡量数据集离中趋势:方差,平方差
集中趋势,但我们不知道数据是接近集中趋势还是远离集中趋势,所以可以用方差去衡量,其中平方是保证数据为正,方差越大,表示数据平均离均值更远。
总体方差σ2,样本方差S2n,样本方差用来估计总体方差。
总体方差的无偏估计或叫无偏样本方差,【离散平方求和/(n-1)】。比【离散平方求和/n】公式要好,这个公式通常会低估总体方差。样本的选择(若样本不分布得均匀)可能使样本方差,样本均值和总体方差,总体均值发生较大的误差!
样本均值
X ˉ = i = 1 n x i = x 1 + x 2 + x n n \bar{X}=\displaystyle\sum_{i=1}^n x_i=\frac{x_1+x_2\cdots+x_n}{n}
总体均值
μ = i = 1 N x i = x 1 + x 2 + x N N {\mu}=\displaystyle\sum_{i=1}^Nx_i=\frac{x_1+x_2\cdots+x_N}{N}
方差
总体方差
σ 2 = i = 1 n x i μ 2 N \sigma^2=\frac{\displaystyle\sum_{i=1}^n (x_i-\mu)^2}{N}
样本方差
S 2 = S n 1 2 = i = 1 n x i X ˉ 2 n 1 S^2=S_{n-1}^2=\frac{\displaystyle\sum_{i=1}^n (x_i-\bar{X})^2}{n-1}
标准差
σ = σ 2 \sigma=\sqrt{\sigma^2}

随即变量

随机变量不是传统意义上的变量,而更像是从随机过程映射到数值的函数。
离散随机变量:变量的个数是有限的; 连续随机变量:变量范围可能是有限的,但个数表示无限的

概率密度函数

1离散随机变量中每个变量概率有值且有意义
2连续随机变量中某个具体变量概率值为0,而一个变量范围内的概率有值且有意义。
概率密度是一个函数,用于计算连续变量某一范围空间内的概率
数量如果是无穷,概率就没有意义。
连续情况下,概率密度函数下方面积必然等于1

二项分布

概率分布包括离散和连续两种。
离散的时候得到二项分布,连续的时候得到正态分布。
二项分布即重复n次的伯努利试验,在每次试验中只有两种可能的结果。
二项分布概率:
P(X=n)=N!/(n!*(N-n)!

期望值

期望值就是每个数据乘以它出现的概率之和。
随机变量的计算出来的期望值,不一定是随机变量最有可能出现的值,他是总体的集中趋势,总体均值,是我们面对随机变量函数的集体所“期望”的值,他最可能出现,但不一定是最可能的值。即使其他随机变量值得概率很高,也有可能出现其他随机变量值作为期望值,即平均值。
二项式分布
E(X)=np,其中n是试验次数,p是每次成功的概率。该公式只针对二项分布,不针对其他分布的随机变量。

泊松过程

泊松分布来源于二项分布: n->无限 的二项分布
泊松分布是从二项分布而来的,在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
说明两点:
1.泊松分布是离散型概率分布,表示(固定尺度的)连续区间(如时间,距离)上给定的事件发生次数的概率,所以可以看做泊松分布中n是无穷大的。二项分布是固定实验次数下,事件发生次数的概率,n是有界的。
2.泊松分布中发生次数的期望是固定的 λ,事件发生的概率p不定,p=λ/n;二项分布中事件发生的概率p是固定的,发生次数的期望不定,λ=n*p。

大数定律

随机变量的n次观测样本,将所有观测值平均起来,定义变量Xn上面一横表示该平均值是随机变量n次观测的均值,大数定律是指样本均值趋近于随机变量的期望值,或者说n趋于无穷时,样本均值趋于总体样本。样本量足够大的时候,样本均值接近期望值或样本均值将收敛于总体均值或随机变量期望值。

正态分布

正态分布是连续的,泊松分布是离散的
二项分布和正态分布是十分相似的,样本容量越大,拟合度越高。

猜你喜欢

转载自blog.csdn.net/lgy54321/article/details/85793326