数理统计基础
因本人刚开始写博客,学识经验有限,如有不正之处望读者指正,不胜感激;也望借此平台留下学习笔记以温故而知新。这一篇文章介绍的是数理统计的理论知识,作为数据分析的基础课程。
基本框架
四大分布
1. 正态分布
若连续型随机变量X的概率密度为:
X服从参数为的正态分布,记为。
2. 卡方分布
设随机变量相互独立,都服从正态分布, 则称随机变量:
服从的分布为自由度为n 的分布,记为。
3. t分布
设, ,X,Y相互独立,则:
称T服从自由度为n的t分布。
4. F分布
若, ,X,Y相互独立,则称随机变量
服从第一自由度为,第二自由度为的F分布。
5. 各分布的主要用途:
卡方分布:用于分类变量的卡方检验。
F分布:多用于方差比例的检验,用于方差分析、回归分析和方差齐性检验。
t分布:在信息不足的情况下,一般使用t 分布,比如在总体方差不知的情况下,对总体均值的检验用t统计量。
数据集中趋势
数据集中趋势的度量包括:均值(mean),分位数,中位数(median),众数(mode)。
1. 平均数:一个数列的和除以所含个数。
2. 分位数: 最大值和最小值之间的一个数值,可使变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。
3. 百分位数:按照升序排列的数列中,其左侧的观察个数在整个样本中所占的百分比为p%,其右侧的观察个数在整个样本中所占的百分比为(100-p)%。
4. 中位数:一组数据按大小顺序排列后,处在数列中点位置的数值,
n为奇数时,其值等于第(n+1)/2个数;
n为偶数时,其值等于第n/2和n/2+1个数的平均值。
5. 众数:一组数据中出现次数最多的变量值。
数据离中趋势
数据离中趋势的度量包括:全距,分位距,方差,离散系数。
1. 全距:也称极差,是一组数据的最大值与最小值之差。
2. 四分位间距:将特殊的3个分位数, , 统称为四分位数,且分别称为第一四分位数,第二四分位数和第三四分位数,并记为,和,其中与的差值为四分位间距。
3. 方差:一组数据中各数值与其算术平均数离差平方的平均数。
4. 离散系数:标准差与其相应的均值之比,表示为百分数:
分布形态
数据分布形态的度量包括:偏态系数,峰度系数。
1. 偏态系数(SK):是对数据分布的不对称性(偏斜程度)的测度,偏态系数有多种计算方法,下面提供一种常用方法:
数据向哪边延伸偏移的多,就说数据是对应边的偏态分布,其中偏态系数越大,说明偏斜越严重。
2. 峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,下面提供一种常用方法:
峰度系数越大,分布曲线形状越尖。
抽样估计
1. 总体:数据统计所要研究的全体。
2. 样本:按照随机原则,从全部总体中抽取出来的个体。
3. 中心极限定理:变量和的分布近似于正态分布,其重点关注“变量和的分布”。
4. 抽样平均误差:
5. 点估计:直接以样本指标的实际值直接作为总体参数的估计值,常用的样本统计量:样本均值和样本方差。
6. 区间估计:在一定的概率保证程度下,选定一个区间,并根据样本指标和区间进行总体指标数值估计所在的可能范围,表达如下:
其中,t的取值需要根据置信度查正态分布概率表:
1~68.27%;1.64~90%;1.96~95%;2~95.45%;3~99.73%
假设检验
假设检验的核心:拒绝原假设,即小概率事件原理。
假设检验包括:P值检验,单样本T检验、两独立样本T检验等。
1. P值检验:利用来自总体的样本数据,推断该总体的均值是否与假设的检验值之间存在显著性差异。
当原假设为真时,检验统计量大于或等于实际观测值的概率,在双侧检验中,拒绝原假设的最小显著性水平为:
当给定显著性水平时,
A.当时,则在显著性水平下拒绝原假设。
B.当时,则在显著性水平下不拒绝原假设。
用P值作检验,可以准确地知道检验的显著性水平,P值实际上就是放弃真错误的概率,也就是检验的真实显著性水平。
2. 单样本T检验:构造检验统计量
3. 两独立样本T检验:利用来自两个正态总体的独立样本,推断两个总体的均值是否存在显著差异。
当两总体分布分别为和时,两样本均值差的抽样分布仍为正态分布,该正态分布的均值为,方差为 。在不同的情况下,有不同的计算方式:
第一种情况:当两总体方差未知且相等,即时,采用合并方差作为两个总体方差的估计,数学定义为:
第二种情况:当两总体方差未知且不相等,即时,分别采用各自的方差,此时两样本均值差的抽样分布的方差 为:
于是,两总体均值差检验的检验统计量为 统计量,数学定义为:
4. 单样本K-S检验:用来检验一个数据的观测经验分布是否是已知的理论分布。
5. 配对样本T检验:用来检验来自两个总体的配对样本的总体均值是否存在显著性差异。
方差分析
需要比较多个总体均值时,需要用到方差分析,下面介绍单因素方差分析的相关统计量:
总离差平方和,或称总平方和,反映全部试验数据之间的差异:
组间离差平方和,或称组间平方和,反映每组数据均值与总平均值的误差:
组内离差平方和,或称误差平方和,反映组内数据与组内平均的随机误差:
构造检验统计量:
相关与回归分析
1. 相关分析是对两个变量之间线性关系的描述与度量,相关系数是度量变量之间线性关系强度的一个统计量。
总体相关系数:
样本相关系数:
构造皮尔逊相关系数的检验统计量为:
它是服从自由度为n-2的t分布,拒绝域
2. 一元线性回归的回归方程为:
参数估计:
给定判定系数
3. 回归模型的检验
A. 回归方程的显著性检验(总体)
构造假设检验统计量:
B. 回归系数的显著性检验(部分)
C. 残差分析
参考文献
CDA远程网上视频课程
应用数理统计与SPSS操作 赵喜林,李德宜,龚谊承