统计学基础(一)

目录:1,统计学定义2,样本3,随机变量4,概率密度函数5,二项分布6,伯努利分布7,大数定律,中心极限定理8,正态分布(高斯分布) 1,统计学定义: 本科教材中对统计学的定义为:收集、处理、分析、解释数据并从中得出结论的科学。数据分析的方法可分为描述统计和推断统计。描述统计学 descriptive statistics 假设有一个数据集,在不告诉别人所有数据的情况下介绍这些数据的情况,通过一些指示性数字来代表所有的数据,而无需将所有的数据都说一次。
推论统计学 inferential statics 运用数据来对事物做结论,假设从总体中得到了一些样本,只需对样本进行一些数学计算,便有可能推断出整体的总体情况。另外:均值:平均数,算数平均数
均值计算:所有数字相加之和除以数字的个数
均值的意义:衡量集中趋势的方法
中位数:中间的数
中位数计算:奇数个数据为中间值,偶数个则中间两个值的均值
中位数意义:衡量集中趋势的另一种方法,是一个数字描述中间的一种方式。
众数:数据集中出现频率最多的数字极差:指的是数据集中数字分开的有多远
极差计算:数据集中最大的数 - 数据集中最小的数
极差意义:极差数值越小,数字之间就越紧密
中程数:最大数和最小数的平均值(算术平均值)
中程数意义:衡量数据的集中趋势
2,样本:首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生和死去,要获取总体数据是不现实的,故需要样本。样本就是从总体中抽取的一部分数据,人类希望用样本来估计总体。
3,随机变量:随机变量与普通变量不同,因为随机变量通常是一个函数,用于量化随机过程。通常用大写字母X,Y,Z等表示,而传统变量通常用小写字母x,y,z表示。随机变量有两类:离散型和连续型。例如:明天是否下雨,用随机变量X来表示,它只有0,1两种值即取值有限且不连续,X是离散型随机变量;而对于明天下雨量,用Y表示,它可以取连续值0.1,0.2,0.5,0.511等,可以是无穷的数据,Y是连续型随机变量。
4,概率密度函数:
  左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。
5,二项分布:二项分布针对的是离散型随机变量。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p),其概率函数为:显然,从定义可以看出,伯努利分布是二项分布在n=1时的特例二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出的。二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。 
6,伯努利分布:伯努利分布(Bernoullidistribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoullitrial)。伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:  伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,其概率函数为:     
7,大数定律,中心极限定理:大数定律就以严格的数学形式表现了随机现象的一个性质,平稳结果的稳定性(或者说频率的稳定性);大数定律从理论上解决:用频率近似代替概率的问题,用样本均值近似代替理论均值。中心极限定理:当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。两者区别:  大数定律是说,n只要越来越大,我把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。  中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。  这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。
8,正态分布:正态分布(英语:normal distribution),又称高斯分布(Gaussian distribution),经常在自然和社会科学领域代表一些随机变量。
其概率密度函数为:
正态分布的数学期望值或期望等于位置参数,决定了分布的位置;其方的开平方或标准等于尺度参数,决定了分布的幅度。  正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参,尺度参的正态分布。
上图为正态分布(高斯分布)的概率密度函数。
上图为正态分布(高斯分布)的概率密度函数的累计分布函数。    正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。

猜你喜欢

转载自blog.csdn.net/qq_41698853/article/details/89019930