统计学知识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25847123/article/details/79310555

申明: 仅个人小记

卡方检验之皮尔逊假设检验

真正的 χ 2 统计量(Chi-Square Statistic)公式

χ 2 = X i 2 = X 1 2 + X 2 2 + . . . + X n 2

要求 X 1 ~ N ( 0 , 1 ) , X 2 ~ N ( 0 , 1 ) ,… X n ~ N ( 0 , 1 )
这时我们称统计量 χ 2 我们称为 服从自由度为n的卡方分布

标准正态分布平方和即为卡方分布。

卡方分布检验: 以卡方分布为基础的假设检验都叫做卡方分布检验,卡方分布检验中构造出的统计量服从或者近似服从卡方分布。

皮尔逊检验(一种卡方检验)
值的大小代表了吻合程度。当统计量的值为0,则意味着观测和理论完全吻合。
Pearson构造了一个统计量,即观测值与期望值之差的平方和再除以期望值 ( O E ) 2 E ,Pearson推导得出这个统计量近似服从卡方分布。如此,我们就可以利用现有的卡方分布来检验“理论分布同观测结果吻合的有多好”,具体的就是“皮尔逊统计量的值的越小代表着理论和观测结果越吻合,越大则越不吻合”这样一种问题。该统计量具体的公式如下下

( O i E i ) 2 E i = ( O 1 E 1 ) 2 E 1 + ( O 2 E 2 ) 2 E 2 + . . . + ( O n E n ) 2 E n
注意: 该统计量相应的卡方统计量的自由度不一定是n,须根据实际情况来确定。

注意: 是近似服从卡方分布,显然 ( O E ) E 不一定服从标准正态分布。

随机误差服从正态分布 ,因为随机误差是各种随机因素的综合形成的,根据中心极限定理,随机误差应该是服从正态分布的。(样本均值的抽样分布当样本容量n越大,该分布越逼近正态分布。对于随机误差,样本容量就是随机因素的数量,这个数量可能是很庞大的。)

样本均值的抽样分布(Sampling distribution of sample mean)

样本容量n充分大的情况

独立分同分布的中心极限定理提出并证明:服从任意分布(该分布总体均值为 μ ,总体 方差为 σ 2 )的一组样本 X 1 , X 2 ,…, X n ,样本均值 X i n ,这么一个统计量随着样本容量n的增大,越来越逼近服从均值为总体均值 μ ,方差 σ 2 n 为正态分布。

这个中心极限定理的确是证明一件很重要的东西。

扫描二维码关注公众号,回复: 5761981 查看本文章
样本容量n不是很大(n<45)

此时,我们可以认为上面的样本均值服从t分布,用t分布来处理问题。

置信区间(Confidence Interval)

默认情况下,置信区间指的是双侧置信区间。
譬如,一个服从正态分布的统计量,求置信水平为0.95的置信区间,即求解不等式

Z 0.025 < Z < Z 0.975
其中, Z 0.025 Z 0.975 都是已知值。

回归分析的一些概念

决定系数 r 2 这个名字的来源。
决定系数 r 2 =相关系数r的平方

对于一维线性回归:
总波动: S S T = ( y y ¯ ) 2
回归平方和: S S R = ( y ^ y ¯ ) 2
残差平方和: S S E = ( y ^ y ) 2

S S T = S S R + S S E

r 2 = 1 S S E S S T = S S R S S T = ( r ) 2 = 2 = C O V ( Y , Y ^ ) C O V ( Y , Y ) C O V ( Y ^ , Y ^ )

猜你喜欢

转载自blog.csdn.net/qq_25847123/article/details/79310555