描述性统计

描述数据的图形法和数值法

(1) 条形图

(2) 饼图

(3) 点图

(4) 直方图

(5) 中心趋势的度量(平均,中位数,众数)

众数:以最大频率出现的y值

(6) 变异性的度量(极差,总体方差,标准样本差)

(7) 相对位置的度量

(8) 异常值检测

变异性的度量

极差

极差 = 最大值 - 最小值

样本方差

n个测量值\(x_1,x_2,...,x_n\)的样本方差定义为\[s^2 = \frac{1}{n-1}\sum_{i=1}^n{(x_i - \mu)}^2\]

注意:有偏方差和无偏方差的区别

标准方差

\[s = \sqrt{s^2}\]

解释标准差的两个有效法则:经验法和切比雪夫法则

经验法则

若一个数据集有近似丘形的对称分布,则可以用以下的经验法则描述数据集

(1)大约68%的测量值位于均值的1个标准差范围内(\(即对于样本在区间\mu\pm s范围内,对于总体在区间\mu\pm \sigma范围内)\)

(2)大约95%的测量值位于均值的2个标准差范围内(\(即对于样本在区间\mu\pm 2s范围内,对于总体在区间\mu\pm 2\sigma范围内)\)

(3)几乎所有测量值位于均值的2个标准差范围内(\(即对于样本在区间\mu\pm 3s范围内,对于总体在区间\mu\pm 3\sigma范围内)\)

切比雪夫法则

对于任一数据集,无论数据的频数是什么形状

(1)可能很少的测量值落在均值的1个标准差范围内(\(即对于样本在区间\mu\pm s范围内,对于总体在区间\mu\pm \sigma范围内)\)

(2)至少有\(\frac{3}{4}\)的测量值落在均值的2个标准差范围内(\(即对于样本在区间\mu\pm 2s范围内,对于总体在区间\mu\pm 2\sigma范围内)\)

(3)至少有\(\frac{8}{9}\)的测量值落在均值的3个标准差范围内(\(即对于样本在区间\mu\pm 3s范围内,对于总体在区间\mu\pm 3\sigma范围内)\)

(4)通常,对于任意大于1的数k,至少有\(1-\frac{1}{k^2}\)的测量值落在均值的k个标准差范围内

异常值的检测

(1) 计算Z得分,然后再利用经验法则或切比雪夫法则

\(z = \frac{(x - \mu)}{\sigma}\)

(2) 画盒子图

猜你喜欢

转载自www.cnblogs.com/xiaobingqianrui/p/10718966.html