统计学知识点

一.集中趋势
1.众数
2.平均数
3.中位数

二.变异性
1.四分位数
上面说到了“中位数”，把样本分成了2部分，再找个这2部分各自的“中位数”，也就把样本分为了4个部分，其中1/4处的值记为Q1，2/4处的值记为Q2，3/4处的值记为Q3
2.四分位距 IQR=Q3-Q1
3.异常值（Outlier）：小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
4.方差(Variance)
5.标准差

三.归一化
1.标准化(z-score)
能够真实的反映一个分数距离平均数的相对标准距离。

四.抽样分布(Sampling Distributions)
1.中心极限定理(Central Limit Theorem)
设从均值为μ，方差为σ²的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ²/n的正态分布
2.抽样分布(Sampling Distributions)

五.估计
1.误差界限 z-score*抽样样本的均值的标准差
2.置信区间 x+/- 误差界限
3.置信度
我们有百分之多少确信总体中的值落在一个特定范围内；一般情况下，取95%的置信度就可以

六.假设检验
1.显著性水平是估计总体参数落在某一区间内，可能犯错误的概率
2.假设检验基本原理：小概率反证法的思想
[1]反证法：从问题的对立面(H0)出发间接判断要解决的问题是否成立
[2]小概率事件：在H0成立的条件下计算检验统计量，根据概率分布确定检验水准a下的p值大小，一般p<=a为小概率事件，a一般为0.05，则拒绝H0
3.假设检验的一般步骤
[1]建立假设，H0，H1，确定校验水准
[2]计算统计量u,t,f
[3]确定概率值P，得出结论
4.P值的含义：

一种概率，一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
拒绝原假设的最小显著性水平。
观察到的(实例的)显著性水平。
表示对原假设的支持程度，是用于确定是否应该拒绝原假设的另一种方法。

5.t检验
t检验主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布。
t检验分为单总体检验和双总体检验。
(1)单总体检验
是检验一个样本的平均数与一个已知的总体平均数的差异是否显著，当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布
(2)双总体样本检验，包括独立样本t检验和配对样本t检验
独立样本t检验：
检验两个独立样本所代表的总体均值差异是否显著。
适用条件：
[1]两样本均来自于正态总体
[2]两样本相互独立
[3]满足方差齐性（通过方差齐性检验）
方差齐性检验（Homogeneity of variance test）是数理统计学中检查不同样本的总体方差是否相同的一种方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。常用方法有：Hartley检验、Bartlett检验、修正的Bartlett检验
6.F检验
F检验又叫方差齐性检验，目的是判断两个样本的总体方差是否相等，计算双总体样本检验的前提条件。
7.z检验(u检验)
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著（可以是样本和总体，也可以是两个样本）
8.卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

猜你喜欢