《统计学》贾俊平第四章数据的概括性度量学习总结

前言

这一章主要介绍了反映数据分布特征的几个特征值以及其计算方法、特点及其应用场合。

1. 集中趋势的度量

分类数据

众数是一组数据中出现次数最多的变量值，用M0表示。

比如 1080 215 1080 758 489 258 这一组数据中1080出现的次数最多，所以该组数据的众数为1080，众数是不受数据中极端值的影响。
顺序数据

中位数是一组数据排序后处于中间位置上的变量值。

未排序的数据不具备这一特征值。

中位数位置 = （n + 1）/ 2，n为数据个数

四分位数

四分位数也称四分位点，它是一组数据排序后处于25%和75%位置上的值。四分位数通过3个点将全部数据等分为4部分。

设下四分位数QL(处在25%位置上的数值)，上四分数为QU（处在75%位置上的数值）：
QL位置 = n / 4
QU位置 = 3n / 4

值的计算：
分位数值 = 下侧值 + （上侧值 - 下侧值）× 0.25 or 0.75
下四分位数乘0.25，上四分位数乘以0.75，其中下侧值和上侧值是确定分位数位置之后相临近的两个值，比如下四分位数的位置为2.25，那么它的下侧值则是位置为2对应的数值，上侧值为位置为3对应的数值
数值型数据：平均数

扫描二维码关注公众号，回复： 5900446 查看本文章

平均数也称为均值，它是一组数据相加后除以数据的个数得到的结果。

平均值这一数据特征应用最为广泛，是集中趋势的最主要的测度值。
众数、中位数和平均数的比较
在一组数据中众数可能不止一个，也可能没有众数。在数据量较多时使用众数才有意义；中位数适合顺序数据中的集中趋势测度值；平均数应用与数值型数据，它利用到了全部的数据信息，但是当数据偏斜程度较大时，平均数的代表性没有那么好。

2. 离散程度的度量

分类数据：异众比率

异众比率是指非众数组的频数占总频数的比例

异众比率越大，众数的代表性越差；异众比率越小，众数的代表性越好。它适合度量分类数据的离散程度。
顺序数据：四分位差
四分位差 = QU - QL，它反映了中间50%的数据的离散程度。
数值型数据：方差和标准差

方差是各变量值与其平均数离差平方的平均数。

方差在衡量数值型数据的离散程度上具有重要的意义，方差越大说明数据的离散程度越大，方差越小数据离散度越小即数据越集中，标准差则是方差的算术平方根。
关于样本方差公式除以n - 1的问题：
首先明白自由度的含义：自由度是指附加给独立的观测值的约束或限制的个数。
假如当一个样本的平均数确定下来后，我们只有n - 1个数取自由值，这些值一旦确定另一个数的值就是唯一的，我们可以称这个样本的自由度为n - 1。
样本方差的自由度为什么是n - 1?因为在计算样本方差的公式中，分子叫做离差平方和，而分子中的样本平均数我们事先要知道，而样本平均数是附加给分子的一个约束，所以计算离差平方和时只有n - 1个独立的观测值。
从实际应用来解释，我们用样本方差去估计总体方差，这是无偏估计。