数据分析基础概念

互联网进一步聚合,对大数据的分析必然会成为一个关键的策略部门的工作。

像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。

说到数据分析,小程会想起Sherlock Home,破案是需要分析数据的:
数据分析师2

但作为一般的技术人员,读者并不需要像电视剧的人物那么“聪明”,只需要掌握一般的知识与技能就有可能胜任工作了,然后才是不断的能力提升。

已经有一些机构根据自己的理解,定义了数据分析师应该掌握的技能,比如下面这个来自网上的图片:
数据分析师掌握的技能

这个图有一定的合理性,立志成为数据分析师的读者,可以参考一下其中提到的技能要求。

作为数据分析的开篇,本文介绍几个在数据分析时经常会说到的概念。

以下介绍的概念,读者有可能会觉得枯燥,建议跳读即可。

(1)平均数

平均数,指得是算术平均值,也就是总和除以个数(或其它单位的和)。平均值,是经常用到的概念,比如“平均每个同学可以分到2个苹果手机”、“下载的平均速度是1MB/s”、“一个月的花费平均是4千块”。

均值有一个缺陷就是在极端情况存在时,也就是极大与极小都很离谱时,平均出来的值就变得不合理,这也是投票取平均分时,可能会考虑把最高分与最低分去掉再作平均的原因。

对于这种缺陷的例子,可以看看下面来自网络的图片:
不合理的平均值

招聘者告诉读者,就职的话平均工资有1800,而实际当读者就的是员工一职时,工资就只有800了。

这个也是平均值谬误的一个例子。

再看另一张图:
家庭收入

不同等级的收入差距很大,假如收集到若干家庭的收入,并取平均数来代表普遍家庭收入的话,就是不靠谱的,富人把穷人平均了。

对于这种统计,可以去掉极端值再统计,或者取每个区间的比例,或者用下面介绍的中值或众数。

(2)中位数

中位数是大小值的分隔值,出现极大值或极小值都不影响到中位数,所以在这种极端的情况下,中位数是可用的一个参考值。

对于奇数个数的数值序列(已排序),中位数就是中间那个值。对于偶数个数的,中位数就是中间两个值的和除以2。

比如:1,2,3,4,5 中位数是3。

比如:1, 2, 3, 4, 5, 6 中位数是(3+4)/2=3.5。

(3)众数

众数,就是出现次数最多的值。可能一个众数都没有,也可能有多个众数。

比如:1, 1, 2, 5, 3, 5, 1 众数是1。

比如:5, 4, 6, 2, 5, 6 众数是5跟6。

众数就是“大家都这样”,是具有一定参考意义的。

(4)绝对数与相对数

绝对数是没有对比的数,比如天气是27度、一个班有50名学生、月薪是5万块,等等。

相对数是一个比值,比如提升了10%、体重不到某人的一半、比例是1:3,等等。

简单来说,绝对数是自然数,而相对数一般是百分比(或能转为百分比)。

(5)百分比与百分点

成本上涨了80%、速度下降了30%,这些都是百分比,这是一个经常出现的形式。

一个点,或一个百分点,就是1%。

一般在百分比的幅度变化时,使用百分点,比如从3%到5%,提升了2个百分点。

(6)比例与比率

部分占总体的比重,为比例。比如失败率是0.01%(占失败与成功的总和)、男同事占所有同事的70%,等等。

比率,是各部分的比,比如女学员与男学员的比率是1:3,等等。

(7)倍数与番数

一般在上涨的情景,用倍数,比如涨了2倍。而在下降的情景要用百分比,比如收入减少了30%,当然在上涨的时候也可以使用百分比,比如参会人数增加了300%。

番数,表示2的N次方。

纯收益番了一番,表示增加1倍(2的1次方,也就是原来的2倍)。

番了两番,表示变成了4倍(2的2次方);番3番,表示8倍,等等。

(8)同比与环比

同比,用于比较,比如现在是5月,同比于去年的5月,这个月的重大故障下降了30%。

环比,用于趋势,比如环比上一周、环比上一个月,这一周或这一个月是怎么样的。


总结一下,本文简单介绍了数据分析中经常会遇到的概念,比如平均数、百分比、番数、同比与环比等。

猜你喜欢

转载自blog.51cto.com/13136504/2113708