数据分析师必备——数据预处理思维导图(数据探索)

前言:

作为一名数据分析师。首先,我们拿到数据时,脑海中要有一个数据处理框架,或者说是数据处理模板。当我们在脑中深刻记住接下来的数据处理模板,并细化了解每个模块,一个模块一个模块的去攻克它。这样,会使得我们学习数据分析更得心应手。但注意的是,就好像英语作文模板一样,套用时不能太死。数据分析也一样,还是根据我们现实需求,进行数据分析。


数据预处理的背景:

平时当我们拿到数据时,数据很难达到自己预想的模样,比如:数据缺失啊,准确性问题、指标太多等等。总要通过一系列的分析,数据操作才能拿到我们想要的数据。所以,这个时候,一个重要的步骤来了——数据预处理。就我个人而言,数据预处理感觉非常重要,数据质量是数据的生命。而数据预处理恰是掌握着数据质量的关键。以上的数据预处理流程图是我查阅资料,文献总结而来(有很多数据预处理版本自行参考),数据预处理主要分五步:数据探索、数据清洗、数据集成、数据规约、数据变换。有些专业名词不懂先别急,先知道大概这么几步。后面我再一一解释。

数据预处理第一步——数据探索阶段:

先上数据探索步骤图,先做初步了解


当我们观测、调查收集初步的样本数据集后,接下来肯定要思考的问题:样本数据集的数量和质量是否满足模型的架构的要求?是否出现从未设想过的数据状态?其中有没有明显的规律和趋势?各因素之间有什么样的关联性?数据探索阶段就是为解决上面这些问题的。这里应该很好理解,就不多bb。我想补充的是,其实数据探索阶段在我们后面数据挖掘中,通数据有趣模式的挖掘概念很像。简单的说,在大部分的应用数据场景中,我们拿到数据,并不知道其背后的含义、规律、价值。这时候,就需要我们对数据进行有趣模式挖掘。(哈哈~数据挖掘是数据分析师的进阶篇。先穿插着讲讲。)

猜你喜欢

转载自blog.csdn.net/libinhai110/article/details/80221864