统计学元知识（从一到全部）

1.什么是统计学

原始理解：通过样本去估计总体，无论是点/区间估计、假设检验、方差分析还是线性回归。

样本 → 总体

课本定义：

①一门收集分析、表述和解释数据的科学。

②一组方法，用来设计实验、获得数据，然后在数据的基础上组织、概括、演示、分析、解释和得出结论。

2.概率论和统计学的关系

3.为什么要用统计学

总体数据相对比较难获取，有时候也没有必要获取。

①统计分析是数据到结论的必经之路，大数据亦需要抽样（ ETL???）

②统计是统计学习的基础，如KNN、朴素贝叶斯、决策树。

4.大数据时代，统计学的意义在哪儿？

〇提供相关性的依据？？

①提供数据挖掘方法的理论支撑

②提供从数据到规律的路径

③提供数据处理的理论支撑（描述统计的统计）

④大数据不一定等于总体（时间），样本估计总体还用的上。

https://www.zhihu.com/question/20593064/answer/26200327

https://www.zhihu.com/people/primes/answers

5.基础概念一览

类型	统计量
基本统计量	均值、中位数、众数、百分位数、极值等
其他描述性统计量	偏度、方差、标准差、显著性等
其他统计知识	总体和样本、参数和统计量、ErrorBar
概率分布与假设检验	各种分布、假设检验流程
其他概率论知识	条件概率、贝叶斯

抽样分布	one	all
t分布	小样本的均值分布
卡方分布	符合正太分布统计量的平方和	卡方检验：独立性、拟合优度
F分布	两个卡方分布均值的比值	同质性检验\|\|多因素方差分析，组间/组内

理论分布	one	all
自然分布	自然啊	X-μ/σ（扶正）
二项分布	事件结果只有成功/失败感情趣的是成功X次的概率是多少
泊松分布	事件独立任意相同时间范围，事件发生概率相同想知道的是某个时间范围内，发生X次的概率	假设服从，进行卡方检验
几何分布	感兴趣的是第N次会成功的概率	前X-1次失败，第X次成功得概率
超几何分布	N种有M类，取n个，会有k个类的概率。不放回抽样

基础概念	one	all
统计学	描述统计和推理统计	数据的收集整理，总体估计和检验
描述统计	统计数据的收集整理、显示和分析	箱线图、频数分布、列联表 tag
均值	算术、几何、均方根、调和平均值
偏差	和均值之差的和的均值((x-μ)+...+(xn-un))/n	无法正确反映和均值的离散程度，正负抵消
方差	和均值之差的平方和的均值	离散程度、但是程度扩大，因为进行了平方操作
标准差	和均值之差的平方和的开方的均值	离散程度最为准确
正态分布	自然分布	Z分布，±1.96
中心极限定理	当样本或者实验次数接近无穷，其分布近似正态分布	均值为样本均值μ 方差为（σ^2）/n，σ为样本方差
推理统计	总体估计和检验	就是描述统计+概率论。均值、方差加上
估计	通过样本统计量估计总体参数
评价估计量的标准	无偏性、有效性、一致性（分布往参数靠）	无偏：估计量的期望=参数有效性：期望分布的方差，不同估计量一致性：期望分布的方差，不同样本量
点估计	利用样本均值、方差估计总体均值方差	极大似然估计、最小二乘估计？
区间估计	点估计 + 分布	大样本的Z分布Z=（X-μ ）/ σ（s）/√N 小样本的t分布t = （X-μ ）/S/√(N-1）为求方差构造的卡方分布量:(n-1)S2/σ2 ∵（x-μ）/σ服从正太分布（即转标准正态分布）其平方和服从卡方分布。结果就是S2*(n-1)/σ2 服从卡方分布 ∴构造的统计量服从正太分布
Z分布	正态分布、自然分布	±1.96，大样本、小样本（方差已知）
t分布	小样本的均值分布	只为小样本
卡方分布	符合正态分布的统计量平方和服从	卡方检验：独立性、拟合优度（观察值、预期）
F分布	符合卡方检验得变量比值	方差分析（单因素、有无交互作用）、单尾检验
统计独立性	过程互不影响	统计独立必不相关
统计相关性	过程相互影响
假设检验	给个假设验证假设结论（拒绝原假设、无法拒绝原假设）	方差分析，假设均值都相等（无显著变化）。
独立性检验	卡方检验的一种，通过样本求出独立比例的期望值。检验观察值和期望值是否服从同一分布
方差分析	多个总体的两辆检验，t检验不好用了方差分析，可以给你维持原显著水平的一次性检验	齐性检验单因素双因素有交互作用

Q&A：

1.探索性分析

2.验证性和探索性因子分析

3.卡方检验的要求

4. ETL是什么东东，为什么需要抽样？

卡方检验的样本量要求

　　卡方分布本身是连续型分布，但是在分类资料的统计分析中，显然频数只能以整数形式出现，因此计算出的统计量是非连续的。只有当样本量比较充足时，才可以忽略两者问的差异，否则将可能导致较大的偏差具体而言，一般认为对于卡方检验中的每一个单元格，要求其最小期望频数均大于1，且至少有4／5的单元格期望频数大于5，此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求，可以采用确切概率法进行概率的计算。

自说自话(bajibaji)

0.正态分布，线性变换n倍后的均值和n个独立变量的均值（x→nx+b nE(x)、a2σ）（nE（x）、nσ2）

1.两个正态总体的叠加，结果还是正态分布。（其变量相互独立）

2.F分布的应用，方差分析、两个总体方差的比值

3.拟合优度检验是什么？卡方检验的一种，单因素拟合检验。双因素列联表分析。

3.5列联表分析和方差分析有何不同？方差分析？？？？

4.回归分析，若样本比较小呢，需要进行非不相关t检验，若多元，F检验

5.泊松分布，离散分布，极限是正态分布

6.可以用正态分布近似二项分布，当N足够大的时候。（np>10,nq>10）

7.泊松分布亦同。

8.大数据往往意味着有大偏差

9.样本随机抽取很重要

10抽样误差

11.非抽样误差、不回应误差、响应误差

12.效度：实际关联信度：真实，可重复

13.大数据也要抽样啊，ETL啥的

14.均值&中位数，均衡量数据的中间水平，但差别可能较大。

15可视化工具power python spss stata minitab excel

16.时间序列预测：ARIMA模型、自回归积分滑动平均模型

17.齐性检验、（有）无交互ANOVA

18分类数据种的成对数据，可以通过系统差异和个体差异来衡量数据具体的变化RP\RV(SVENSSON METHOD)

19.贝叶斯公式、先验和后验概率的转换

理论分布关系：