统计学知识

申明：仅个人小记

卡方检验之皮尔逊假设检验

真正的 ${\chi}^{2}$ 统计量(Chi-Square Statistic)公式

χ^{2} = \sum {X_{i}}^{2} = {X_{1}}^{2} + {X_{2}}^{2} + . . . + {X_{n}}^{2}

${\chi}^{2}=\sum {X _{i}}^{2}={X _{1}}^{2}+{X _{2}}^{2}+...+{X _{n}}^{2}$
要求

X_{1}

$X _{1}$ ~

N (0, 1)

$N(0,1)$ ,

X_{2}

$X _{2}$ ~

N (0, 1)

$N(0,1)$ ,…

X_{n}

$X _{n}$ ~

N (0, 1)

$N(0,1)$
这时我们称统计量

χ^{2}

${\chi}^{2}$ 我们称为 服从自由度为n的卡方分布。

标准正态分布平方和即为卡方分布。

卡方分布检验：以卡方分布为基础的假设检验都叫做卡方分布检验，卡方分布检验中构造出的统计量服从或者近似服从卡方分布。

皮尔逊检验(一种卡方检验)
值的大小代表了吻合程度。当统计量的值为0，则意味着观测和理论完全吻合。
Pearson构造了一个统计量，即观测值与期望值之差的平方和再除以期望值 $\frac {{(O - E)}^{2}}{E}$ ,Pearson推导得出这个统计量近似服从卡方分布。如此，我们就可以利用现有的卡方分布来检验“理论分布同观测结果吻合的有多好”，具体的就是“皮尔逊统计量的值的越小代表着理论和观测结果越吻合，越大则越不吻合”这样一种问题。该统计量具体的公式如下下

\sum \frac{{(O_{i} - E_{i})}^{2}}{E_{i}} = \frac{{(O_{1} - E_{1})}^{2}}{E_{1}} + \frac{{(O_{2} - E_{2})}^{2}}{E_{2}} + . . . + \frac{{(O_{n} - E_{n})}^{2}}{E_{n}}

$\sum\frac {{(O _{i}-E _{i})}^{2}}{E _{i}}=\frac {{(O _{1}-E _{1})}^{2}}{E _{1}}+\frac {{(O _{2}-E _{2})}^{2}}{E _{2}}+...+\frac {{(O _{n}-E _{n})}^{2}}{E _{n}}$ 注意：该统计量相应的卡方统计量的自由度不一定是n,须根据实际情况来确定。

注意：是近似服从卡方分布，显然 $\frac {(O-E)}{\sqrt {E}}$ 不一定服从标准正态分布。

随机误差服从正态分布，因为随机误差是各种随机因素的综合形成的，根据中心极限定理，随机误差应该是服从正态分布的。(样本均值的抽样分布当样本容量n越大，该分布越逼近正态分布。对于随机误差，样本容量就是随机因素的数量，这个数量可能是很庞大的。)

样本均值的抽样分布(Sampling distribution of sample mean)

样本容量n充分大的情况

独立分同分布的中心极限定理提出并证明：服从任意分布(该分布总体均值为 $\mu$ ,总体方差为 ${\sigma}^{2}$ )的一组样本 $X _{1}$ , $X _{2}$ ,…, $X _{n}$ ,样本均值 $\frac {\sum {X _{i}}}{n}$ ，这么一个统计量随着样本容量n的增大，越来越逼近服从均值为总体均值 $\mu$ ，方差 $\frac {{\sigma}^{2}}{n}$ 为正态分布。

这个中心极限定理的确是证明一件很重要的东西。

扫描二维码关注公众号，回复： 5761981 查看本文章

样本容量n不是很大(n<45)

此时，我们可以认为上面的样本均值服从t分布，用t分布来处理问题。

置信区间(Confidence Interval)

默认情况下，置信区间指的是双侧置信区间。
譬如，一个服从正态分布的统计量，求置信水平为0.95的置信区间，即求解不等式

Z_{0.025} < Z < Z_{0.975}

$Z _{0.025} < Z < Z _{0.975}$ 其中，

Z_{0.025}

$Z _{0.025}$ 和

Z_{0.975}

$Z _{0.975}$ 都是已知值。

回归分析的一些概念

决定系数 ${r}^{2}$ 这个名字的来源。
决定系数 ${r}^{2}$ =相关系数r的平方

对于一维线性回归：
总波动： $SST=\sum {{(y - \bar y)}^{2}}$
回归平方和： $SSR=\sum {(\hat y -\bar y)}^{2}$
残差平方和： $SSE = \sum {(\hat y - y)}^{2}$

S S T = S S R + S S E

$SST = SSR + SSE$

r^{2} = 1 - \frac{S S E}{S S T} = \frac{S S R}{S S T} = (r) 2 = {相 关 系 数}^{2} = \frac{C O V (Y, \hat{Y})}{\sqrt{C O V (Y, Y) C O V (\hat{Y}, \hat{Y})}}

${r}^{2} = 1- \frac {SSE}{SST} = \frac {SSR}{SST} = {(r)}{2} = {相关系数}^{2} = \frac {COV(Y,\hat Y)}{\sqrt {COV(Y,Y)COV(\hat Y,\hat Y)}}$