统计学元知识(从一到全部)

1.什么是统计学

原始理解:通过样本去估计总体,无论是点/区间估计、假设检验、方差分析还是线性回归。
样本 → 总体 
课本定义:
①一门 收集分析、表述和解释数据的科学
②一组方法,用来设计实验、获得数据,然后在数据的基础上组织、概括、演示、分析、解释和得出结论。

2.概率论和统计学的关系



3.为什么要用统计学

总体数据相对比较难获取,有时候也没有必要获取。

①统计分析是数据到结论的必经之路,大数据亦需要抽样( ETL???
②统计是统计学习的基础,如KNN、朴素贝叶斯、决策树。

4.大数据时代,统计学的意义在哪儿?

〇提供相关性的依据??
①提供数据挖掘方法的理论支撑
②提供从数据到规律的路径
③提供数据处理的理论支撑(描述统计的统计)
④大数据不一定等于总体(时间),样本估计总体还用的上。


5.基础概念一览

类型
统计量
基本统计量
均值、中位数、众数、百分位数、极值等
其他描述性统计量
偏度、方差、标准差、显著性等
其他统计知识
总体和样本、参数和统计量、ErrorBar
概率分布与假设检验
各种分布、假设检验流程
其他概率论知识
条件概率、贝叶斯

抽样分布
one
 all
t分布
小样本的均值分布

卡方分布
符合正太分布统计量的平方和
卡方检验:独立性、拟合优度
F分布
两个卡方分布均值的比值
同质性检验||多因素方差分析,组间/组内


理论分布
one
all
自然分布
自然啊
X-μ/σ(扶正)
二项分布
事件结果只有成功/失败
感情趣的是成功X次的概率是多少

泊松分布
事件独立
任意相同时间范围,事件发生概率相同
想知道的是某个时间范围内,发生X次的概率
假设服从,进行卡方检验

几何分布
感兴趣的是第N次会成功的概率
前X-1次失败,第X次成功得概率
超几何分布
N种有M类,取n个,会有k个类的概率。
不放回抽样


基础概念
one
all
统计学
描述统计和推理统计
数据的收集整理,总体估计和检验
描述统计
统计数据的收集整理、显示和分析
箱线图、频数分布、列联表 tag
均值
算术、几何、均方根、调和平均值

偏差
和均值之差的和的均值((x-μ)+...+(xn-un))/n
无法正确反映和均值的离散程度,正负抵消
方差
和均值之差的平方和的均值
离散程度、但是程度扩大,因为进行了平方操作
标准差
和均值之差的平方和的开方的均值
离散程度最为准确
正态分布
自然分布
Z分布,±1.96
中心极限定理
当样本或者实验次数接近无穷,其分布近似正态分布
均值为样本均值μ
方差为(σ^2)/n,σ为样本方差
推理统计
总体估计和检验
就是描述统计+概率论。均值、方差加上
估计
通过样本统计量估计总体参数

评价估计量的标准
无偏性、有效性、一致性(分布往参数靠)
无偏:估计量的期望=参数
有效性:期望分布的方差,不同估计量
一致性:期望分布的方差,不同样本量
点估计
利用样本均值、方差估计总体均值方差
极大似然估计、最小二乘估计?
区间估计
点估计 + 分布
大样本的Z分布Z=(X-μ )/ σ(s)/N
小样本的t分布t = (X-μ )/S/√(N-1)
为求方差构造的卡方分布量:(n-1)S2/σ2
(x-μ)/σ服从正太分布(即转标准正态分布) 其平方和服从卡方分布。结果就是S2*(n-1)/σ2 服从卡方分布
∴构造的统计量服从正太分布
Z分布
正态分布、自然分布
±1.96,大样本、小样本(方差已知)
t分布
小样本的均值分布
只为小样本
卡方分布
符合正态分布的统计量平方和服从
卡方检验:独立性、拟合优度(观察值、预期)
F分布
符合卡方检验得变量比值
方差分析(单因素、有无交互作用)、单尾检验
统计独立性
过程互不影响
统计独立必不相关
统计相关性
过程相互影响

假设检验
给个假设
验证假设
结论(拒绝原假设、无法拒绝原假设)
方差分析,假设均值都相等(无显著变化)。
独立性检验
卡方检验的一种,通过样本求出独立比例的期望值。
检验观察值和期望值是否服从同一分布

方差分析
多个总体的两辆检验,t检验不好用了
方差分析,可以给你维持原显著水平的一次性检验
齐性检验
单因素
双因素
有交互作用

 

Q&A:

1.探索性分析
2.验证性和探索性因子分析
3.卡方检验的要求
4. ETL是什么东东,为什么需要抽样?

卡方检验的样本量要求

  卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。

自说自话(bajibaji)


0.正态分布,线性变换n倍后的均值和n个独立变量的均值(x→nx+b  nE(x)、a2σ)(nE(x)、nσ2)
1.两个正态总体的叠加,结果还是正态分布。(其变量相互独立)
2.F分布的应用,方差分析、两个总体方差的比值
3.拟合优度检验是什么?卡方检验的一种,单因素拟合检验。双因素列联表分析。
3.5列联表分析和方差分析有何不同?方差分析????
4.回归分析,若样本比较小呢,需要进行非不相关t检验,若多元,F检验
5.泊松分布,离散分布,极限是正态分布
6.可以用正态分布近似二项分布,当N足够大的时候。(np>10,nq>10)
7.泊松分布亦同。
8.大数据往往意味着有大偏差
9.样本随机抽取很重要
10抽样误差
11.非抽样误差、不回应误差、响应误差
12.效度:实际关联 信度:真实,可重复
13.大数据也要抽样啊,ETL啥的
14.均值&中位数,均衡量数据的中间水平,但差别可能较大。
15可视化工具power python spss stata minitab  excel
16.时间序列预测:ARIMA模型、自回归积分滑动平均模型
17.齐性检验、(有)无交互ANOVA
18分类数据种的成对数据,可以通过系统差异和个体差异来衡量数据具体的变化RP\RV(SVENSSON METHOD)
19.贝叶斯公式、先验和后验概率的转换


理论分布关系:








猜你喜欢

转载自blog.csdn.net/ml_1019/article/details/78314400