ADP-01-七大数据陷阱,你踩过几个?

读Ben Jones的Avoiding Data Pitfalls, 在第一章,作者就引用了Joyce Brothers的这句You need to give yourself permission to be human,意在表明:你我皆凡人,必然会犯错误的。对于做数据的,也不存在没有掉到过坑里的人, 还绝对不止一次。有时候掉到坑里很久之后,才有所察觉,那种懊悔和难过,就别提了;但愿这些错误和教训能为未来的数据工作铺平道路。

想必数据分析从业者们大多遇到过这样的情形:你正在给大家宣讲一个数据报告,观点富有非凡洞见,图表精美一致,结论又显得不容质疑。恰在此时,来了一位 踢馆的,问了一下你对数据采集或数据库中的不完整或者存在问题的数据了解如何,是如何处理的,依据是什么,以及如何确定现在所用的数据是真正可用的,等等。 如果准备不充分,诸如此类的问题定会令宣讲者紧张至极。

由于没有意识到认知上的盲区,或是因为大意忽略掉盲区,是跌落数据陷阱的根本原因。尤其近年来,诸多数据技术的加持,使得数据工作者可以拿到现成的数据来进行分析研究,渐渐地,数据分析师不再关注数据流在工程层面的状况,而一些公司也不再要求分析师具备这样的能力;从分工角度,这是合理的。但造成的问题是, 一旦数据在工程层面出问题,分析师往往不能及时察觉,依然会对已经有问题的数据进行固有处理,这显然会造成恶果。因此,在实际工作中,依然需要数据分析师和数据科学家要有足够的数据工程方面的素质。

当然,数据陷阱并没有实质阻碍数据工作的进展。这些年来,由于数据方法和技术的引入,人们对染色体和神经系统,以及地质和气候现象有了更深理解, 而且绘制出了广阔翔实的天文星系图。而电子商务中的商品推荐,已经司空见惯。种种数据应用,不一而足。

相应地,道高一尺魔高一丈,数据陷阱危害级别也水涨船高。单就数据滥用,就已经造成过巨大的危害和损失,比如华尔街金融分析师的失败预测模型,以及谷歌流感趋势预测中的种种含糊之处。可见,我们的数据应用并不总是那么成功,有时还会反噬人类自身。

人们似乎有一种犯错的惯性。如果是别人做的,作为旁观者,我们往往很快就能发现问题。 但如果是我们自己做,有可能很晚才会发现,有时是经人提醒才觉察,但问题已经不小了。 一旦遇到这种情况,不要抱怨,赶紧去排查问题,尽快修复。

数据陷阱虽然很多,很感谢Ben Jones 帮助我们整理成七大类,以下分别介绍。

陷阱1:认知错误:我们如何看待数据

人们经常会问:数据能够告诉我们什么?其实或许更重要的是,数据不能告诉我们什么? 我们知道,认识论,在哲学领域,主要研究知识的可靠性,可以用来揭示什么是合理的信念, 以及什么仅仅是主观臆断。人们经常在错误思维方式和前提下处理数据,从而导致错误,例如:

· 假设我们使用的数据是现实的完美反映

· 仅根据历史数据得出关于未来的结论

· 试图用数据来验证先前持有的信念,而不是来测试其真假

规避认知错误,保证思维清晰,明白前提合理与否,是称职数据分析工作之基础

陷阱2:技术陷阱:我们如何处理数据

当我们决定对一个特定的问题做数据分析研究时,通常经过这些处理步骤: 收集、存储,连接、转换、清理,使之形式正确。而处理不当会导致:

· 数据与类目级别不匹配和脏数据的进入

· 度量单位或日期字段不一致或不兼容

· 将不同的数据集聚在一起,存在缺失值或重复,改变了原有数据分布

这些步骤复杂而且麻烦,但可以保证分析的准确。有时候,信息量会在处理过程有所损失,所以一定要对每一步思虑再三,最好注释这样做的意图, 以备日后查看,修改时有迹可循。如果无视数据集和处理的问题,而贸然做结论,无疑要跌落陷坑,疼痛自知。

陷阱3:数学错误:我们如何计算数据

处理数据离不开数学计算,定量数据处理不当,会导致,例如:

· 把不同层面的数据汇总到一起

· 对比率或比例进行过度计算

· 混用比例和百分比

· 处理量纲不同的数据

以上只是如何获取某些数据字段,并以其创建新字段的几个示例;似乎不难,但在实际工作中,出错率并不低, 通常都会造成不小的问题。比如1999年,一个工程师的笔误,造成了NASA火星航天飞船的上天失败,损失了1.25亿美元, 这已然不是陷阱可以形容的,简直是黑洞了。

陷阱4:统计错误:我们如何比较数据

“谎言,该死的谎言,还有统计数字。这在西方是很有名的谚语,暗指一些人捏造数字,误导他人。但当我们自己遇到这个问题的时候,也会用统计数字造成自欺,而无论、描述性统计还是推断性统计,困惑无处不在:

· 是否我们的集中趋势或变化的度量把我们的研究引入歧途?

· 我们正在研究的样本是否代表了我们期望研究的人群?

· 我们使用的比较方法是否有效,在统计上是否合理?

类似的问题数不胜数,很难见微知著,这是因为处理问题的思维方式,甚至连专家

有时会出错。比如,“简单随机样本”很难简单得到需要的样本;如何向小白解释显著性或者p值的含义。这些都不是容易的事

陷阱5:分析偏差:我们如何分析数据

数据分析是数据工作的核心内容,以此可以得出结论,并指导决策。 虽然已有很多数据分析师的岗位,其实很多人的工作内容都离不开数据分析。 数据分析固然可以将工作质量提升到很高的程度,而处理不当,也会严重拉低工作品质,例如:

· 模型与历史数据过度拟合

· 缺失数据集中的重要信息

· 无效推论

· 数据指标不具代表性

就谷歌流感趋势预测为例,即使搜索算法一直在改进,同时也有用户的反馈参与,但这依然不足以令人认定这就可以精确的预测流感人数了,其实还差得很远。

陷阱6:图形错误:我们如何可视化数据

由于是可视生动的形象,这方面的问题经常得到注意和讨论。有时候看这些东西,眼花缭乱,不知所云,即使对于业内人士也是如此。 动辄一堆饼图,柱图,伴随数不尽的切片,一个y轴立在一旁,不知道看谁呢。但好在这些问题已被研究很久了, 可以通过以下问题进行识别:

· 图表与当前主题是否匹配?

· 如果一个观点已经清晰表达了,还有必要费这么大劲,放图表里看么?

· 是否过度使用了经验法则?

当然,如果我们陷入了上面的前五个陷阱之一,就是把图表类型做得再完美正确也是没有意义的, 但如果我们成功地规避这前五个陷阱,要是在这一步搞砸了,实在是太遗憾了。

陷阱7:设计危险:我们如何装扮数据

人们通常欣赏好的设计形象。 当驾驶着设计精良的汽车去上班,所有的控制装置都放在正确的位置;坐在办公桌前的椅子上, 这些椅子与我们的身体轮廓完美契合。那么我们为什么要坐下来,打开我们的浏览器, 去看一些无聊花哨的信息图表或笨拙无趣的数据仪表盘? 可见,设计很重要。我们需要考虑如下几点:

· 颜色选择是让观众感到困惑还是更清楚了?

· 是否使用足够创意适当的美化了图表,还是错过了一个用美学元素为图表增值的机会?

· 所创建的视觉对象是否易于与之交互,还是令用感到困惑?

良好的设计元素可以令观众把注意力集中在所要表达的信息上,而不是其他不相关的对象。

总结

这七个陷阱就像七把双刃剑——它们中的任何一个都可以成就或破坏我们的数据工作。 但是没有必要害怕他们。当我们发现自己陷入其中时,要学会如何迅速恢复,或者,更好的是,学会完全避开它们。

后续,会对这七大陷阱做详细解读,并给出应对之道。最后还会有个大彩蛋。敬请期待

主要参考文献Avoiding Data Pitfalls,Ben Jones 统计学从数据到结论,吴喜之

想获取更多内容,请关注海数据实验室公众号。

本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

猜你喜欢

转载自blog.csdn.net/qq_40433634/article/details/108771238
今日推荐