数据处理的基本方法--简要介绍

之前学习了数据分析方法论,也就是确定了研究的目的,搭建好研究的框架,接下来该是对于数据进行处理了。
根据之前的定义:

数据处理是对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前的必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值、有意义的数据。

第一步,数据清洗。顾名思义,数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
第二步,数据加工。要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据。

其它具体方法:
缺失数据处理的四种方法:
1.用一个样本统计量的值代替缺失值,常用的做法是使用该变量的样本平均值代替缺失值。
2.用一个统计模型计算出来的值去代替缺失值。常用的模型有回归模型、判别模型等。
3.将有缺失值的记录删除,不过可能会导致样本量的减少。
4.将有缺失值的记录保留,仅在相应的分析中做必要的排除。

在实际操作中,采用样本平均值代替缺失值,当样本量较大时,我们可以采用定位查找一次,选出样本里的所有空值,再利用“ctrl+Enter”在所有选中单元格中一次性输入样本平均值。

其它数据处理的方法:
数据加工:
1.数据抽取,是指保留原数据表中某些字段的部分信息,组合成一个新的字段。可以是字段分列,也可以是字段合并,字段匹配等。
2.数据计算,简单计算就是字段通过加减乘除等简单算术运算计算出来。还有的是函数计算,比如平均值和总和,日期的加减法。
数据分组
数据转换
数据抽样

发布了28 篇原创文章 · 获赞 13 · 访问量 5015

猜你喜欢

转载自blog.csdn.net/qq_34069667/article/details/105414421