申明: 仅个人小记
卡方检验之皮尔逊假设检验
真正的 统计量(Chi-Square Statistic)公式
要求 ~ , ~ ,… ~
这时我们称统计量 我们称为 服从自由度为n的卡方分布。
标准正态分布平方和即为卡方分布。
卡方分布检验: 以卡方分布为基础的假设检验都叫做卡方分布检验,卡方分布检验中构造出的统计量服从或者近似服从卡方分布。
皮尔逊检验(一种卡方检验)
值的大小代表了吻合程度。当统计量的值为0,则意味着观测和理论完全吻合。
Pearson构造了一个统计量,即观测值与期望值之差的平方和再除以期望值
,Pearson推导得出这个统计量近似服从卡方分布。如此,我们就可以利用现有的卡方分布来检验“理论分布同观测结果吻合的有多好”,具体的就是“皮尔逊统计量的值的越小代表着理论和观测结果越吻合,越大则越不吻合”这样一种问题。该统计量具体的公式如下下
注意: 是近似服从卡方分布,显然 不一定服从标准正态分布。
随机误差服从正态分布 ,因为随机误差是各种随机因素的综合形成的,根据中心极限定理,随机误差应该是服从正态分布的。(样本均值的抽样分布当样本容量n越大,该分布越逼近正态分布。对于随机误差,样本容量就是随机因素的数量,这个数量可能是很庞大的。)
样本均值的抽样分布(Sampling distribution of sample mean)
样本容量n充分大的情况
独立分同分布的中心极限定理提出并证明:服从任意分布(该分布总体均值为 ,总体 方差为 )的一组样本 , ,…, ,样本均值 ,这么一个统计量随着样本容量n的增大,越来越逼近服从均值为总体均值 ,方差 为正态分布。
这个中心极限定理的确是证明一件很重要的东西。
样本容量n不是很大(n<45)
此时,我们可以认为上面的样本均值服从t分布,用t分布来处理问题。
置信区间(Confidence Interval)
默认情况下,置信区间指的是双侧置信区间。
譬如,一个服从正态分布的统计量,求置信水平为0.95的置信区间,即求解不等式
回归分析的一些概念
决定系数
这个名字的来源。
决定系数
=相关系数r的平方
对于一维线性回归:
总波动:
回归平方和:
残差平方和: