数理统计基础

版权声明:学习笔记均来自于个人整理~~~ https://blog.csdn.net/sinat_41842926/article/details/83591715

数理统计基础

因本人刚开始写博客,学识经验有限,如有不正之处望读者指正,不胜感激;也望借此平台留下学习笔记以温故而知新。这一篇文章介绍的是数理统计的理论知识,作为数据分析的基础课程。 

基本框架

四大分布 

1. 正态分布
若连续型随机变量X的概率密度为:

X服从参数为的正态分布,记为

2. 卡方分布

设随机变量相互独立,都服从正态分布, 则称随机变量:

服从的分布为自由度为n 的分布,记为

3. t分布
 ,X,Y相互独立,则:

称T服从自由度为n的t分布。

4. F分布

,X,Y相互独立,则称随机变量

服从第一自由度为,第二自由度为的F分布。

5. 各分布的主要用途:

卡方分布:用于分类变量的卡方检验。

F分布:多用于方差比例的检验,用于方差分析、回归分析和方差齐性检验。

t分布:在信息不足的情况下,一般使用t 分布,比如在总体方差不知的情况下,对总体均值的检验用t统计量。

 

数据集中趋势

数据集中趋势的度量包括:均值(mean),分位数,中位数(median),众数(mode)。

1. 平均数:一个数列的和除以所含个数。

2. 分位数: 最大值和最小值之间的一个数值,可使变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。

3. 百分位数:按照升序排列的数列中,其左侧的观察个数在整个样本中所占的百分比为p%,其右侧的观察个数在整个样本中所占的百分比为(100-p)%。

4. 中位数:一组数据按大小顺序排列后,处在数列中点位置的数值,
n为奇数时,其值等于第(n+1)/2个数;
n为偶数时,其值等于第n/2和n/2+1个数的平均值。

5. 众数:一组数据中出现次数最多的变量值。

 

数据离中趋势

数据离中趋势的度量包括:全距,分位距,方差,离散系数。

1. 全距:也称极差,是一组数据的最大值与最小值之差。

2. 四分位间距:将特殊的3个分位数, , 统称为四分位数,且分别称为第一四分位数,第二四分位数和第三四分位数,并记为,,其中的差值为四分位间距。

3. 方差:一组数据中各数值与其算术平均数离差平方的平均数。

4. 离散系数:标准差与其相应的均值之比,表示为百分数:

 

分布形态

数据分布形态的度量包括:偏态系数,峰度系数。

1. 偏态系数(SK):是对数据分布的不对称性(偏斜程度)的测度,偏态系数有多种计算方法,下面提供一种常用方法:

数据向哪边延伸偏移的多,就说数据是对应边的偏态分布,其中偏态系数越大,说明偏斜越严重。

2. 峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,下面提供一种常用方法:

峰度系数越大,分布曲线形状越尖。

 

抽样估计

1. 总体:数据统计所要研究的全体。

2. 样本:按照随机原则,从全部总体中抽取出来的个体。

3. 中心极限定理:变量和的分布近似于正态分布,其重点关注“变量和的分布”。

4. 抽样平均误差:

5. 点估计:直接以样本指标的实际值直接作为总体参数的估计值,常用的样本统计量:样本均值和样本方差。

6. 区间估计:在一定的概率保证程度下,选定一个区间,并根据样本指标和区间进行总体指标数值估计所在的可能范围,表达如下:

其中,t的取值需要根据置信度查正态分布概率表:
1~68.27%;1.64~90%;1.96~95%;2~95.45%;3~99.73%

 

假设检验

假设检验的核心:拒绝原假设,即小概率事件原理。

假设检验包括:P值检验,单样本T检验、两独立样本T检验等。

1. P值检验:利用来自总体的样本数据,推断该总体的均值是否与假设的检验值之间存在显著性差异。
当原假设为真时,检验统计量大于或等于实际观测值的概率,在双侧检验中,拒绝原假设的最小显著性水平为:

当给定显著性水平时,
A.当时,则在显著性水平下拒绝原假设。
B.当时,则在显著性水平下不拒绝原假设。
用P值作检验,可以准确地知道检验的显著性水平,P值实际上就是放弃真错误的概率,也就是检验的真实显著性水平。

2. 单样本T检验:构造检验统计量

3. 两独立样本T检验:利用来自两个正态总体的独立样本,推断两个总体的均值是否存在显著差异。

当两总体分布分别为时,两样本均值差的抽样分布仍为正态分布,该正态分布的均值为,方差为 。在不同的情况下,有不同的计算方式:
第一种情况:当两总体方差未知且相等,即时,采用合并方差作为两个总体方差的估计,数学定义为:

 第二种情况:当两总体方差未知且不相等,即时,分别采用各自的方差,此时两样本均值差的抽样分布的方差 为:

 于是,两总体均值差检验的检验统计量为 统计量,数学定义为:

4. 单样本K-S检验:用来检验一个数据的观测经验分布是否是已知的理论分布。

5. 配对样本T检验:用来检验来自两个总体的配对样本的总体均值是否存在显著性差异。

 

方差分析

需要比较多个总体均值时,需要用到方差分析,下面介绍单因素方差分析的相关统计量:

总离差平方和,或称总平方和,反映全部试验数据之间的差异:

组间离差平方和,或称组间平方和,反映每组数据均值与总平均值的误差:

组内离差平方和,或称误差平方和,反映组内数据与组内平均的随机误差:

构造检验统计量:

 

相关与回归分析

1. 相关分析是对两个变量之间线性关系的描述与度量,相关系数是度量变量之间线性关系强度的一个统计量。

总体相关系数:

样本相关系数:

构造皮尔逊相关系数的检验统计量为:

它是服从自由度为n-2的t分布,拒绝域

2. 一元线性回归的回归方程为:

参数估计:

给定判定系数

3. 回归模型的检验

A. 回归方程的显著性检验(总体)

构造假设检验统计量:

B. 回归系数的显著性检验(部分)

C. 残差分析

参考文献

CDA远程网上视频课程
应用数理统计与SPSS操作 赵喜林,李德宜,龚谊承

 

猜你喜欢

转载自blog.csdn.net/sinat_41842926/article/details/83591715