可汗学院统计学课程总结

1.均值,众数,中位数,极差,中程数表示的是一组数据的集中趋势。
均值mean:一般指算数平均数;
众数mode:一组数据中出现次数最多的数;
中位数medium:将一组数据进行排序,当数据个数为奇数时,中间的那个数的值,当数据个数为偶数时,中间两个数的平均值;
极差range:一组数中最大值减去最小值;
中程数midrange:极差值/2

2.中心极限定理(central limit theory):当样本量足够大时,随机独立事件的概率分布趋向于正态分布。

3.标准差(standard derivation):一组数据的波动程度(也是金融学里风险的度量)

4.统计检验的作用:通过样本来判断总体的情况, 并判断某个特定值是否落在总体分布的概率内。
根据中心极限定理,只有抽样次数足够多,任何分布的大样本量的均值分布都服从正态分布,任何人不的小样本量的均值分布都服从T分布。T分布是正态分布肥尾的一种特殊形式,肥尾巴是以为方差值变大。
Z统计量和T统计量
Z统计量的检验其实就是大样本的正态分布的检验。
T统计量的检验其实就是小样本的正态分布的检验。
其检验的对象是样本均值的分布。

设样本容量为n
总体方差的估计=样本方差/n-1。
其中n-1为自由度。

5.卡方分布:
从标准正态分布中取样,并计算取样值的平方和,得到的样本服从卡方分布。
对于离散性分布来说,卡方分布其实就是(实际值-期望值)^2/期望值。
其实质是检验样本对总体的估计效果。
如果卡方值大于显著性水平,估计效果就差。
6.F分布:
用来判断总波动是由样本组间波动引起的还是组内波动引起的。
对于列联表,计算组间波动与组内波动的比值。这一比值便符合自由度1为组间自由度,自由度2为组内自由度的F分布。

这一比值所在的概率区间小于显著性水平时,则是有组间波动引起的,反之,则是组内波动引起的。

5.X%的置信区间:其实就是说有X% 的概率相信会落在分布的区间。

6.泊松分布:其实就是二项分布的连续函数。

万物归一。
自由度和矩阵的秩很像啊。

课程真的好棒,第一次知道统计学原来这么有趣,像听故事一样,不知不觉就看完了,发现用了6个半天。
课程链接:https://www.bilibili.com/video/av45395982/?p=42

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/88563636