七大数据陷阱之油腻的统计学：令人崩溃的描述

统计学中，最基本和最常见的分支是所谓的描述性统计学(descriptive statistics )：把一组数据归纳为能描述或用于总结数据集本身的若干指标。

比如：

一家公司所有员工的平均收入
一个班级的高考分数范围
股票投资组合的回报误差
一个团队中球员的平均身高

有人会问，描述统计不过就是总结一下数据，这么简单的事情也会涉及陷阱吗？

事实上，当然有。

在前面的系列中，即使是简单加法都会涉及陷阱。

而描述统计这里会有稍微复杂一点的均值或标准差的统计量，在结构上已经扩大了犯错的可能性空间。

在描述统计中，会讨论到数据集的集中趋势，这里涉及均值，中值等统计量。

最常见的错误倒还不是在计算这些指标时发生的，而且这些公式也真的不难。

而集中趋势指标带来的真正困难在于：当向人们展示这些指标时候，如均值，总会有人认为---既然均值是这样，那应该这个数据集里面的数值都这样吧。

当然，这是一种非常懒惰的想法，而懒惰就容易掉到坑里，这里举一个体育界的例子。

例子来了

美国职业橄榄球联盟的男性球员平均数据如下：

年龄25岁，身高约6英尺2英寸，体重244.7磅，年收入150万美元，身穿51号球衣，全名有13个字符(包括空格、连字符等)。

这些陈述是所谓的字面上的数据事实，来自于2018年北美职业美式足球联盟32支球队的季前赛名单上有2874名现役球员的信息。

看到这些数据，有人可能会认为：随便找一个球员，这些指标都会非常接近于所提供的这些数据的平均值，误差应该不会太大。

说到这是不是感到，离坑不远了。此时如果有个一个9英尺3英寸高的球员(50%的偏离均值)，会感到惊讶么？

有些人真的会，但其实不必。显然，这里面有先入为主的东西。

对于以上的6个属性作柱状图，如下所示。

可见，形状各异，可以试着猜猜每个图应该是什么属性。

后边会把各图所指的属性全部给出。

现在呢，请大家做以下图这道连线题。

希望能从这些不同的数据分布图形中，想一想中心趋势对于全体数据的代表性是否只有一种。

比如A图，左边开始偏小，之后整体数据基本维持在同一水平，到右端，数据密度不见衰减，却突然间没了数据，这应该是什么属性呢？

再看看E，居然有一个中间低点，这又可能是什么呢？不急，大家慢慢猜。

好的，一般10分钟可以出答案了，如下图所示。

请根据答案好好思考，哪些因素会影响答案，是常识？背景知识？量化估计？还是其他。

A.均匀分布:球衣号码

每逢答案一出来，就有一种很合理的感觉，对吧！？

我们来看下：在完全均匀分布中，随机抽取任何值，概率一样。

当然，来自现实世界的经验数据集几乎从不完美地遵循一个分布。但是从下图可以看到，整体还是显示出很高的一致性来，除了左边第一个,不过仅仅约占5%的球员数量。

该数据集的球衣号码的均值是51.

这里有个背景，就是球衣号码就在1到99之间，没有100号的，

这也就是右端最终突然停止的原因。

那么在这种具体的数据分布的背景下，随便抽取一个值，或者多抽取几个，真的又会有人可以如此猜测，这些值应该与均值差别不大；于是大胆假设，此时的均值应该可以代表却大部分数据状况了吧！

至此，已经完全入坑。

然而，有趣的事情来了。在2018年季前赛期间，2874名现役球员中，只有27人的球衣号码正好是51号，

这意味着用均值只有不到1%的机会猜对任意球员的球衣号码。

有个小知识点，根据官方规则，只有处于“中锋”位置的球员(在进攻线中间的球员，将球传给四分卫)才可以是这样的身材。

去除离群值，还可以发现，不论猜哪个码，都有1%的正确率。

2018年全联盟球员名单中出现频率最高的球衣号码是38号，如果你猜38号为均值，也不过1.347%的正确率而已。

对这组数据再做一个柱状图，把每组大小改为1，如下图所示：

对于统计学小白而已，最起码应该有这样的认识：

当遇到一个均匀分布时，要看清最小值和最大值，而均值和中位数都位于范围的中心，此外再无其他额外信息。

但51号球衣就是NFL球员穿的“典型”球衣吗?这当然是在可能的范围内，不会说这是不典型的，就像球衣1号。

但使用“典型”一词并不能提供什么有效信息，毕竟，每个队的中锋也并不多。

下一篇，我们来讲第二个分布，也就是统计学上最著名的正态分布。

七大数据陷阱之油腻的统计学：令人崩溃的描述

例子来了

猜你喜欢