七大数据陷阱之油腻的统计学:千夫所指

开场白

时下已经是所谓的数字化和大数据时代很多年了,统计学的地位愈发显赫,用途愈发深广,而对之的批评或负面情绪也日益高涨。

对于如此现象,用一句电视剧里常说的话---此事牵涉甚广,那么本文就来理上一理。

美国著名作家马克吐温曾言:Facts are stubborn things, but statistics are pliable.

说白了,就是如果事实摆在面前,那也没什么可说的,但如果是统计数字呢,可发挥的,真就多了去了。

因“搞数”而生

在现象界,由于万物不同,也似乎世事无常,针对各种具体的目的,是需要比较和对照的,统计学也就是在这样的背景下出现的, 意在为人们的生活提供确定性指导

尽管统计学为人类社会的发展发挥了巨大的正面效用,但人们一提起统计学或统计数字,往往蕴含复杂的意味。

比如,经常会在网络上看到大家谈论统计数字时,有如下内容的议论:

  • 统计学是不好的
  • 统计数字是谎言
  • 统计学是无用的
  • 统计数字不是事实
  • 统计量是编造的
  • 统计学是为失败者准备借口的

很有意思吧。这到底发生了什么?为什么许多人对一个学科领域竟然如此厌恶。

看下韦氏词典对统计学的定义,其仅仅是“处理大量数字数据的收集、分析、解释和呈现的数学分支”

如此看来,这明明就是一个工具学科啊,可这么多人对该领域持如此消极的态度,原因究竟何在呢?

四大罪证

怎么就那么难学

01第一个原因,太难了。

对于不少工作,学习和或生活经常接触统计学的人而言,经常会抱怨:即使是描述统计学和推断统计学(descriptive and inferential statistics)中最基本的概念,也很难正确的理解,总觉得什么地方不对,更别提给人解释了。

许多糊里糊涂的大学新生都承认,在准备每次统计学课程的考试时,着实艰辛。

更麻烦的是,即使许多行业科学家居然也说不清楚p值到底是什么。而小白碰到统计学时,基本如读天书无二。

02专家也常犯错

第二个对统计学和相关工作意见大的原因竟然是:即使是所谓的专家,在严谨的工作态度下,也会误用统计工具和相关的技术,而且还不在少数,包括笔者自己在内。

统计学领域陷阱数不胜数,难以避免。

当我们看到专家也会时常做出不正确的决定时,真有想把眼前的桌子掀翻的心情,尤其在最需要专家指点迷津的时候。

而这多少会令人陷入不可知论的情绪困境中。

03统计数字与骗子

统计仇恨背后的第三个原因是,经常有人拿着一堆数字,来为他们自己的目的服务,而逻辑或是事实上的支持关系,却所言无多,这种行为其实已经构成撒谎

前面已经提到,即使是在马克·吐温时代的人也意识到了这一点。

当今有一些相当受欢迎的指导书籍,写作主题就是关于如何用统计数字来行诡诈的事情。

不得不说,这种行为够缺德的。

04冷血杀手

最后,第四个原因是,统计数据通常被认为是冷漠无情的,说的好听是中立超然,因为很多统计数子都是生活中的,与人息息相关,而这些数字经常表现得好像跟人没什么关系。

而人一旦被统计数字标签化,比如年龄,分数,甚至是颜值,等等,就好像被诅咒了一样,心里说不出的那种不舒服。

没有人希望“成为一个统计数字”,因为这会等同于成为一个不幸情况的受害者,被一个单独的、没有名字的、没有面孔的数字被永远隐藏在匿名之中。想到此处,是挺冷的。

为统计学正名

但尽管统计学或统计数字受到了如此普遍的谴责,但统计学科这个领域本身还是为每个数据工作者提供了解决问题的重要或必要的方法和工具,始终在人类文明进程中发挥着作用

在某种程度上,如果重新考虑一下上面所引用的韦伯字典的定义,就会发现,人们在处理数据时所做的一切,在实际上都只是统计数据,

不管想给它起什么更性感的名字,如数据分析、分析学、数据科学——如果按照字面上的定义来解释的话,不过都只是统计学的子集而已。

统计学,同数学,工程以及其他自然学科一样,只是一套工具

而如何发挥这套工具的效能,首先在于要真正学会正确的理解相关的理论和运用对应的实践方法。

但也不得不说,统计学确实是一门艰深难学的学科,许多地方很容易令人迷惑不解,不知所云,甚至不知所措,由此而跌落陷坑者也实在不计其数。

结语

那么,为了把人们对统计学的看法从炼狱中拯救出来,并为恢复其应有的名誉做些事情,这几篇文字,将会着重为读者朋友介绍一些统计学方法运用上常见且常栽进去坑们。

猜你喜欢

转载自blog.csdn.net/qq_40433634/article/details/108834217
今日推荐