大数据,多大算“大

在数据“泛滥”的今天,人人都在提“大数据”,但多大的数据才算“大”呢?如果盲目的强调“大”,结果只会被数据淹没,从而导致信息过量,最终对决策不仅没有帮助反而使人困惑、不知所措。今天,我们来谈一谈信息过量的问题。

数据分析的目的

我们对数据做分析的目的是将数据转化成信息,从而帮助人们更好的做决策。因此,决策的好坏与信息的质量密不可分。俗话说,从量变到质变。信息的质量一定程度取决于信息的数量。那么,科学的决策到底需要多少信息呢?是多多益善吗?

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入

来看一个例子:如果往桶里倒水,那么总有一个时刻,水满了会溢出来。如果用这桶水来灭火,则多余的水并没有起到作用,完全是浪费了。

什么是信息过量

信息过量是针对某个目标,提供过多且无用的信息。

下面我们将用质量保证中普遍应用到的过程性能分析为例进行阐述。您经常在很多过程性能报告中会看到以下输出结果。

表I

一些分析报告甚至包含更多的统计量。这些信息对某些人很有吸引力,他们喜欢尽可能多的信息,但真正的专家会质疑需要这么多信息的必要性。提供过多信息的风险在于,用户会不知所措,困惑不已,且会错过性能分析结果中的重要部分。

信息过量可以定义为在执行某项任务时,提供不必要的信息。以上列出的统计量可能确实很多,但它们真的有必要吗?它们的目的是什么?目的和目标是一致的吗?应该报道的最少信息量是什么?最多的信息量又是什么?遗憾的是,并没有公式可以计算出最优平衡量。每种情形要结合其自身特点具体分析,要考虑到方方面面。

满足分析目标的信息量

在统计学研究中,有个术语叫“充分性”。如果所给的样本中得出的其他统计量对于统计值提供不了更多信息,则该统计量是充分的。例如,样本均值是一个充分统计量。因为没有其他统计量可以提供关于平均数的更多信息了。

这个原理可以部分应用于判断某个信息是否充分。任何多余的信息都是信息过量。在这种情况下,我们谈论的不是统计量,而是满足某个目标的信息,包括图。

过程性能研究的目的是从生产不合格品的角度了解当前过程运作的有多好。满足这个目标,需要的最小信息量是多少?

猜你喜欢

转载自blog.csdn.net/crhacq798/article/details/87913387
今日推荐