2 数据的概括性度量

阅读材料为第四章。

开头先来一个总体内容的概括好了：

集中趋势：众数、中位数、平均数

离散程度：异众比率、四分位差、极差、平均差、方差或标准差、离散系数

分布的形状：偏态系数、峰态系数

集中趋势：

分类数据：

众数：一般情况下，只有在数据量较大的时候众数才有意义。

众数可能不存在，也可能有多个。

顺序数据：

分位数、中位数

中位数的位置：(n+1)/2

数值型数据：

平均数：简单平均数、加权平均数、几何平均数

简单平均数很简单就不说了。

根据分组数据计算的平均数称为加权平均数；工作中我们算1-9月的店均销售就是采用加权平均的，因为每个月的店铺数会有变化。用1-9月的销售额之和除以1-9月的店铺数之和。

几何平均数的主要应用是计算现象的平均增长率（当数据出现零值或负值时不宜使用）。

当所平均的各比率数值相差不大时，算术和几何平均的结果差别不大。

众数、中位数、平均数之间的关系：

当数据对称分布时，三者相等；

当数据左偏分布时，平均数被拉向左边，中位数也略偏左边，因此，平均数<中位数<众数

当数据右偏分布时，平均数被拉向右边，中位数也略偏右边，因此，众数<中位数<平均数

三者的应用场合：

众数：数据量大时适用；分类数据。

中位数：不受极端值影响，因此偏态分布时适用；顺序数据。

平均数：受极端值影响大，因此数据对称分布时适用；数值型数据。

集中趋势和离散程度之间的联系：

数据的离散程度越大，集中趋势的测度值对该组数据的代表性越差。

离散程度的测度值有：

异众比率（分类数据）

四分位差（顺序数据；两个四分位数的差，反映了中间50%数据的离散情况）

方差&标准差（常用，有量纲）&极差（简单粗暴，极易受极端值影响）&平均差（实际意义清楚，准确反映全体数据的离散情况）

离散系数：用于对比不同水平的不同样本的离散情况（标准差除以平均值）。

平均值&标准差铸造的终极武器:标准分数

计算方法：(数据-平均值)/标准差

用途：

①可以测度每个数据在该组数据中的相对位置

②可以用它来判断一组数据汇总是否有离群数据

③我们在对多个具有不同量纲的变量进行处理时，常常用标准分数对各变量进行标准化处理

---->经验法则：适用于对称分布的数据。三个数分别是 68%，95%，99%

---->切比雪夫不等式：适用于任何分布的数据。三个数分别是 75%，89%，94%

离散系数（相对离散程度）

计算方法：标准差除以平均值。（当平均数接近0时，离散系数的值趋于增大，此时必须慎重解释）

主要用来比较不同样本数据的离散程度。

数据分布形状的度量：偏态与峰态

偏态：若数据对称分布，则偏态系数为0；若大于1或小于-1，为高度偏态分布；若在0.5到1 或 -1到-0.5之间，为中等偏态分布。

峰态：若数据正态分布，则峰态系数为0；若大于0为尖峰分布，数据分布集中；若小于0为扁平分布，数据分布分散。

最后总结一下与以上概念相关的excel函数：

1.众数：mode()，若不含重复数据，会返回错误值

2.中位数：median()

3.四分位数：quartile.inc(array,quart)

quart=0，返回最小值；quart=1，返回第一个四分位数；quart=2返回中位数；quart=3，返回第二个四分位数；quart=4返回最大值

4.算术平均数：average()

5.几何平均数：geomean()

6.平均差：avedev()

7.标准差：stdev()

8.偏态系数：skew()

9.峰态系数：kurt()

2 数据的概括性度量

猜你喜欢