数据处理的基本方法--简要介绍

之前学习了数据分析方法论，也就是确定了研究的目的，搭建好研究的框架，接下来该是对于数据进行处理了。
根据之前的定义：

数据处理是对收集到的数据进行加工整理，形成适合数据分析的样式，它是数据分析前的必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值、有意义的数据。

第一步，数据清洗。顾名思义，数据清洗就是将多余重复的数据筛选清除，将缺失的数据补充完整，将错误的数据纠正或删除。
第二步，数据加工。要对数据字段进行信息提取、计算、分组、转换等加工，让它变成我们想要的数据。

其它具体方法：
缺失数据处理的四种方法：
1.用一个样本统计量的值代替缺失值，常用的做法是使用该变量的样本平均值代替缺失值。
2.用一个统计模型计算出来的值去代替缺失值。常用的模型有回归模型、判别模型等。
3.将有缺失值的记录删除，不过可能会导致样本量的减少。
4.将有缺失值的记录保留，仅在相应的分析中做必要的排除。

在实际操作中，采用样本平均值代替缺失值，当样本量较大时，我们可以采用定位查找一次，选出样本里的所有空值，再利用“ctrl+Enter”在所有选中单元格中一次性输入样本平均值。

其它数据处理的方法：
数据加工：
1.数据抽取，是指保留原数据表中某些字段的部分信息，组合成一个新的字段。可以是字段分列，也可以是字段合并，字段匹配等。
2.数据计算，简单计算就是字段通过加减乘除等简单算术运算计算出来。还有的是函数计算，比如平均值和总和，日期的加减法。
数据分组
数据转换
数据抽样

守一城-天阑

发布了28 篇原创文章 · 获赞 13 · 访问量 5015

私信关注

数据处理的基本方法--简要介绍

猜你喜欢