描述数据的图形法和数值法
(1) 条形图
(2) 饼图
(3) 点图
(4) 直方图
(5) 中心趋势的度量(平均,中位数,众数)
众数:以最大频率出现的y值
(6) 变异性的度量(极差,总体方差,标准样本差)
(7) 相对位置的度量
(8) 异常值检测
变异性的度量
极差
极差 = 最大值 - 最小值
样本方差
n个测量值\(x_1,x_2,...,x_n\)的样本方差定义为\[s^2 = \frac{1}{n-1}\sum_{i=1}^n{(x_i - \mu)}^2\]
注意:有偏方差和无偏方差的区别
标准方差
\[s = \sqrt{s^2}\]
解释标准差的两个有效法则:经验法和切比雪夫法则
经验法则
若一个数据集有近似丘形的对称分布,则可以用以下的经验法则描述数据集
(1)大约68%的测量值位于均值的1个标准差范围内(\(即对于样本在区间\mu\pm s范围内,对于总体在区间\mu\pm \sigma范围内)\)
(2)大约95%的测量值位于均值的2个标准差范围内(\(即对于样本在区间\mu\pm 2s范围内,对于总体在区间\mu\pm 2\sigma范围内)\)
(3)几乎所有测量值位于均值的2个标准差范围内(\(即对于样本在区间\mu\pm 3s范围内,对于总体在区间\mu\pm 3\sigma范围内)\)
切比雪夫法则
对于任一数据集,无论数据的频数是什么形状
(1)可能很少的测量值落在均值的1个标准差范围内(\(即对于样本在区间\mu\pm s范围内,对于总体在区间\mu\pm \sigma范围内)\)
(2)至少有\(\frac{3}{4}\)的测量值落在均值的2个标准差范围内(\(即对于样本在区间\mu\pm 2s范围内,对于总体在区间\mu\pm 2\sigma范围内)\)
(3)至少有\(\frac{8}{9}\)的测量值落在均值的3个标准差范围内(\(即对于样本在区间\mu\pm 3s范围内,对于总体在区间\mu\pm 3\sigma范围内)\)
(4)通常,对于任意大于1的数k,至少有\(1-\frac{1}{k^2}\)的测量值落在均值的k个标准差范围内
异常值的检测
(1) 计算Z得分,然后再利用经验法则或切比雪夫法则
\(z = \frac{(x - \mu)}{\sigma}\)
(2) 画盒子图