《统计学》 贾俊平 第四章 数据的概括性度量 学习总结

前言

这一章主要介绍了反映数据分布特征的几个特征值以及其计算方法、特点及其应用场合。

1. 集中趋势的度量

分类数据

众数是一组数据中出现次数最多的变量值,用M0表示。

比如 1080 215 1080 758 489 258 这一组数据中1080出现的次数最多,所以该组数据的众数为1080,众数是不受数据中极端值的影响。
顺序数据

中位数是一组数据排序后处于中间位置上的变量值。

未排序的数据不具备这一特征值。

中位数位置 = (n + 1)/ 2,n为数据个数

四分位数

四分位数也称四分位点,它是一组数据排序后处于25%和75%位置上的值。四分位数通过3个点将全部数据等分为4部分。

设下四分位数QL(处在25%位置上的数值),上四分数为QU(处在75%位置上的数值):
QL位置 = n / 4
QU位置 = 3n / 4

值的计算:
分位数值 = 下侧值 + (上侧值 - 下侧值)× 0.25 or 0.75
下四分位数乘0.25,上四分位数乘以0.75,其中下侧值和上侧值是确定分位数位置之后相临近的两个值,比如下四分位数的位置为2.25,那么它的下侧值则是位置为2对应的数值,上侧值为位置为3对应的数值
数值型数据: 平均数

扫描二维码关注公众号,回复: 5900446 查看本文章

平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。

平均值这一数据特征应用最为广泛,是集中趋势的最主要的测度值。
众数、中位数和平均数的比较
在一组数据中众数可能不止一个,也可能没有众数。在数据量较多时使用众数才有意义;中位数适合顺序数据中的集中趋势测度值;平均数应用与数值型数据,它利用到了全部的数据信息,但是当数据偏斜程度较大时,平均数的代表性没有那么好。

2. 离散程度的度量

分类数据: 异众比率

异众比率是指非众数组的频数占总频数的比例

异众比率越大,众数的代表性越差;异众比率越小,众数的代表性越好。它适合度量分类数据的离散程度。
顺序数据: 四分位差
四分位差 = QU - QL,它反映了中间50%的数据的离散程度。
数值型数据:方差和标准差

方差是各变量值与其平均数离差平方的平均数。

方差在衡量数值型数据的离散程度上具有重要的意义,方差越大说明数据的离散程度越大,方差越小数据离散度越小即数据越集中,标准差则是方差的算术平方根。
关于样本方差公式除以n - 1的问题:
首先明白自由度的含义:自由度是指附加给独立的观测值的约束或限制的个数
假如当一个样本的平均数确定下来后,我们只有n - 1个数取自由值,这些值一旦确定另一个数的值就是唯一的,我们可以称这个样本的自由度为n - 1。
样本方差的自由度为什么是n - 1?因为在计算样本方差的公式中,分子叫做离差平方和,而分子中的样本平均数我们事先要知道,而样本平均数是附加给分子的一个约束,所以计算离差平方和时只有n - 1个独立的观测值。
从实际应用来解释,我们用样本方差去估计总体方差,这是无偏估计。

猜你喜欢

转载自blog.csdn.net/Mr_Liuzhongbin/article/details/89314262