七大数据陷阱之油腻的统计学:令人崩溃的描述

统计学中,最基本和最常见的分支是所谓的描述性统计学(descriptive statistics ):把一组数据归纳为能描述或用于总结数据集本身的若干指标。

比如:

  • 一家公司所有员工的平均收入
  • 一个班级的高考分数范围
  • 股票投资组合的回报误差
  • 一个团队中球员的平均身高

有人会问,描述统计不过就是总结一下数据,这么简单的事情也会涉及陷阱吗?

事实上,当然有。

在前面的系列中,即使是简单加法都会涉及陷阱。

而描述统计这里会有稍微复杂一点的均值或标准差的统计量,在结构上已经扩大了犯错的可能性空间。

在描述统计中,会讨论到数据集的集中趋势,这里涉及均值中值等统计量。

最常见的错误倒还不是在计算这些指标时发生的,而且这些公式也真的不难。

而集中趋势指标带来的真正困难在于:当向人们展示这些指标时候,如均值,总会有人认为---既然均值是这样,那应该这个数据集里面的数值都这样吧。

当然,这是一种非常懒惰的想法,而懒惰就容易掉到坑里,这里举一个体育界的例子。

例子来了

美国职业橄榄球联盟的男性球员平均数据如下:

年龄25岁,身高约6英尺2英寸,体重244.7磅,年收入150万美元,身穿51号球衣全名有13个字符(包括空格、连字符等)。

这些陈述是所谓的字面上的数据事实,来自于2018年北美职业美式足球联盟32支球队的季前赛名单上有2874名现役球员的信息。

看到这些数据,有人可能会认为:随便找一个球员,这些指标都会非常接近于所提供的这些数据的平均值,误差应该不会太大。

说到这是不是感到,离坑不远了。此时如果有个一个9英尺3英寸高的球员(50%的偏离均值),会感到惊讶么?

有些人真的会,但其实不必。显然,这里面有先入为主的东西。

对于以上的6个属性作柱状图,如下所示。

可见,形状各异,可以试着猜猜每个图应该是什么属性。

后边会把各图所指的属性全部给出。

现在呢,请大家做以下图这道连线题。

希望能从这些不同的数据分布图形中,想一想中心趋势对于全体数据的代表性是否只有一种。

比如A图,左边开始偏小,之后整体数据基本维持在同一水平,到右端,数据密度不见衰减,却突然间没了数据,这应该是什么属性呢?

再看看E,居然有一个中间低点,这又可能是什么呢?不急,大家慢慢猜。

好的,一般10分钟可以出答案了,如下图所示。

请根据答案好好思考,哪些因素会影响答案,是常识?背景知识?量化估计?还是其他。

A.均匀分布:球衣号码

每逢答案一出来,就有一种很合理的感觉,对吧!?

我们来看下:在完全均匀分布中,随机抽取任何值,概率一样。

当然,来自现实世界的经验数据集几乎从不完美地遵循一个分布。但是从下图可以看到,整体还是显示出很高的一致性来,除了左边第一个,不过仅仅约占5%的球员数量。

该数据集的球衣号码的均值是51.

这里有个背景,就是球衣号码就在1到99之间,没有100号的,

这也就是右端最终突然停止的原因。

那么在这种具体的数据分布的背景下,随便抽取一个值,或者多抽取几个,真的又会有人可以如此猜测,这些值应该与均值差别不大;于是大胆假设,此时的均值应该可以代表却大部分数据状况了吧!

至此,已经完全入坑。

然而,有趣的事情来了。在2018年季前赛期间,2874名现役球员中,只有27人的球衣号码正好是51号,

这意味着用均值只有不到1%的机会猜对任意球员的球衣号码。

有个小知识点,根据官方规则,只有处于“中锋”位置的球员(在进攻线中间的球员,将球传给四分卫)才可以是这样的身材。

去除离群值,还可以发现,不论猜哪个码,都有1%的正确率。

2018年全联盟球员名单中出现频率最高的球衣号码是38号,如果你猜38号为均值,也不过1.347%的正确率而已。

对这组数据再做一个柱状图,把每组大小改为1,如下图所示:

对于统计学小白而已,最起码应该有这样的认识

当遇到一个均匀分布时,要看清最小值和最大值,而均值和中位数都位于范围的中心,此外再无其他额外信息。

但51号球衣就是NFL球员穿的“典型”球衣吗?这当然是在可能的范围内,不会说这是不典型的,就像球衣1号。

但使用“典型”一词并不能提供什么有效信息,毕竟,每个队的中锋也并不多。

下一篇,我们来讲第二个分布,也就是统计学上最著名的正态分布

猜你喜欢

转载自blog.csdn.net/qq_40433634/article/details/108968547
今日推荐