七大数据陷阱之油腻的统计学:幂律分布

本篇是描述统计学陷阱的最后一篇,我们来看下这六张图中最后一张,球员的收入

F 球员的收入

同其他的系列文章一样,我们把最好的数据分布放在最后。

平均而言,一个橄榄球员每年约赚150万美元。

2017赛季999名球员的确切平均收入为148.9万美元。

而且,已知球员的收入存在一种分配机制,

那么,如前五张图带来的启示,这个整体的平均收入能代表多少的队员的个体收入水平呢?

回顾一下,平均值(这里指“算术平均值”)是整个分布中代表数据集中性程度的指标。

换句话说,如果我们把每个球员的实际工资换成148.9万美元的平均工资,

那么所有的人加起来将会得到与整个联盟球员相同的工资总额,也就是29.7亿美元左右。

倘若当真如此,很多球员一定会对这样的安排感到满意。

我们看下图中球员工资的分布,有三个最大的区间——0 - 49.9万美元,50万- 100万美元,100万- 150万美元——几乎与平均值持平或低于平均值。

事实上,在能够找到的2017赛季1999个球员的工资数据中,有1532个球员的工资低于平均工资。占全部球员数量的76.6%

如果你预设他们每年能赚150万美元,那么绝大多数的球员会很无奈,当然他们会对这个平均收入数值会多想一会的。

但有些球员可能会面露鄙视的表情。比如四分卫柯克·考辛斯(Kirk Cousins),他在2017年的收入接近2400万美元。他在这个柱状图中的最右侧,很不显眼,然而他的工资是这个均值的16倍。

如果用标准差来估计这个分布,柯克·考辛斯,比平均值要大10个标准差。

如果有一个球员的身高比平均身高高出这个标准,那么这个球员的身高就是8英尺4英寸。

相比之下,现在世界上最高的人(8英尺1英寸)也比他矮了整整3英寸。

该工资数据的标准差是225万美元,比平均值本身还要大。

正如所见,工资分配是一种完全不同的机制。既不是均匀分布,也不像正态分布。

而这就是与正态分布齐名的幂律分布,其在社会科学领域中无处不在。

试着想象一下每个社交媒体账户的粉丝数量分布情况:相对较少的一些账户数量,拥有着大量粉丝,

每个这样的账户都有成千上万的粉丝,而剩下的大多数账户每个可能只有几个或更少粉丝,

于是形成了一个令人难以置信的长尾。

很多事情都是如此,如书籍销售,网站访客,流媒体服务上的音乐,电影的播放量。

作为人类,我们会把大量的注意力、大部分的金钱和爱慕都倾注在相对较少的其他人和产品上。在人类生活的许多事情中,胜利者往往会得到丰厚的好处。

这就是为什么幂律分布常被说成遵循帕累托法则,或二八分成法则80%的好处给了20%的人。

顺便说一句,数字80和20当然不是确定的数据了,

只是一种简单的数据修辞方式,让人们明白,相对较少的人得到了相对过多的收益。

以足球运动员的工资为例,我们现在考虑的是,工资的80%将由联赛前800名球员获得,也就是整个联赛的人数40%。

在整个联赛中,有整整一半的收入被214名球员拿下,也就是联盟总数的10%多一点。

如果我们画出每个队员的累计薪资,从薪资最高的玩家开始,比如左边的柯克·考辛斯,然后将下一个队员的薪资加到总薪资中,

以此开展,我们就能看到这个分布有多么倾斜,

如下图所示:

与此对比的是球员身高的累积分布,最高的,如前文提到的,Nate Wozniak被放置在最左边,

如下图所示

这几乎是一条完美的直线。

这里涉及另一种思考方法。如果你建立一个楼梯,每一步的高度是与每个队员的高度成正比, 从地面的第一步是最高的球员,顶部的最后一步是最矮的球员,从远处看整个楼梯几乎看不到什么不同。

如果做同样的事情,但是让每一步都是至此的每个球员的收入累计值。不难发现,楼梯会像上面的弧形一样剧烈弯曲。

结语

这里仅仅分析的是一个行业在某一个时间段的数据,就可以看到少数的大数值,仍然会大幅度高于平均水平。

事实上,服从幂律分布的收入数据分布涉及的群体对象和适用范围极为广泛,从所有的运动员,到地球上所有的人民, 这种分布完全并不像人的身高分布,更不像掷骰子。

至此,六个分布图,分析完毕,

应该说给了我们生动实例,表明中值或者平均值只能放在整体的视野下来看,如果非要用这些指标来给个体贴标签的话,恐怕一只脚已经踩到数据陷阱了。

下一篇,将为大家介绍统计推断方面的陷阱,敬请期待。

猜你喜欢

转载自blog.csdn.net/qq_40433634/article/details/109123612
今日推荐