统计学习-初探基本连续统计分布

初探连续统计分布
    之前文章介绍的是离散的统计分布，这些分布是从最初的概率论问题里延伸得到，比如伯努利分布、二项分布、多项分布等，其实是从实际博彩游戏里得到的一种对于随机事件发生的规律的总结，而本文将在这个基础上开始介绍连续的统计分布，在某种程度上连续分布也可以从一些实验上得到相关规律，并且连续分布和离散分布在某些情况是互相存在联系的，比如二项分布和正态分布。本文将会介绍三种连续分布，分别是均匀分布、正态分布、指数分布。
    首先介绍的是均匀分布，这种分布其实也被称为矩形分布，因为它和x轴、两端值可以构成一个矩形，均匀分布最大的特点就是等可能的，并且这种分布的形状是由两端的参数a和b所决定的，通常记均匀分布为U(a,b) 那么均匀分布的概率密度函数如下，并且均值和方差都可以通过积分计算直接得到，均值是(a+b)/2 ，方差是(b-a)^2/12
在这里插入图片描述
    其次介绍的是正态分布，这种分布其实最早是在求二项分布的渐近公式得到的，它又被称为钟形分布，因为这种分布的性质就行两边低，中间高，它反映的在均值和附近的区域，数据量较多；在距离均值很远的区域数据量较少，在生活中有很多此类案例，比如身高、体重等常见指标。而决定正态分布形状的是两个参数，一个是期望μ决定了均值所在位置、另一个是标准差σ决定了正态分布是幅度，那么正态分布就记为N(μ,σ^2) ，它的概率密度函数如下所示。而在实际使用的时候，经常会将均值和方差去做标准化，得到标准正态分布N(0,1) ，这样可以方便去除变量的量纲等影响因素，从而更直观地比较各种变量之间分布的关系，从另一个角度去看，正态分布就是连续化的二项分布，当硬币次数抛掷多次，并且这个实验进行多轮以后，其正面出现的概率的均值就是很接近1/2，而在1/2左边和右边都有很多结果，而多次抛掷硬币正面出现概率接近0或者1的概率的情况是很小的，因此这个实验其实最终数据的分布和正态分布很接近。
在这里插入图片描述
    然后介绍的是指数分布，这种分布其实是伽马分布的特殊情况。而这种分布描述的是泊松过程中每个时间之间的时间的分布，它和泊松分布一样具有无记忆性质，这个在很多制作行业有很广泛的应用，比如一个灯泡已经使用了t小时，那么它从现在继续使用n小时和最开始使用n小时的寿命应该是相同的，这个分布描述的是一种物品本身的使用和何时开始无关，它的分布期望和方差分别是1/λ 与 1/(λ*λ) ,这个可以从概率密度函数的积分计算得到，它的密度函数如下所示。
在这里插入图片描述
    总的来说，连续的数据分布在很多场景是非常常见的，特别是在当前大数据时代，由海量的数据做支撑，并且很多变量是无法通过完全枚举观察到，这个时候就需要通过样本去估计总体的分布，因此可以从更宏观的角度去理解数据的本质。所以对于数据从业者来说，了解和学习连续的统计分布是有必要的，因为在工作和学习中都会经常用到。

泛统计理论初探——初探常见连续分布

统计学习-初探基本连续统计分布

猜你喜欢