谁说菜鸟不会数据分析(入门篇)----- 学习笔记3(数据准备、处理)

1、数据准备:

一维表的列标签是字段,二维表的列标签是数据

数据表的设计要求
  1. 数据表由标题行和数据部分组成
  2. 第一行是标的列标题(字段名),列标题不能重复
  3. 第二行是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列
  4. 数据表中不能有合并单元格存在
  5. 数据表与其他数据之间应该留出至少一个空白行和一个空白列
  6. 数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式存储数据

2、数据处理:根据数据分析的目的,将收集到的数据,用适当的处理方法进行整理加工,形成适合数据分析的要求样式。

数据处理步骤
  1. 数据清洗:将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
  2. 数据加工:对数据字段进行信息提取、计算、分组、转换等加工,变成想要的数据表

(1)删除重复值:countif  条件格式  高级 数据删除重复项

(2)缺失数据:缺失值是指在数据集中某个或某些属性的值是不完全的。

  • 机械原因:由于数据收集或保存失败造成的数据缺失,如数据存储的失败,存储器失败,机器故障导致某段时间数据未能收集等
  • 人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,如在市场调查中被访人拒绝透露相关问题的答案,或者对问题的回答是无效的,抑或数据录入人员失误漏录了数据。
缺失值处理方法
  1. 样本统计量代替,如样本平均值代替
  2. 用统计模型计算出的值代替,回归模型、判别模型
  3. 删除缺失值的记录,导致样本量减少
  4. 保留缺失值的记录,仅在相应分析中做必要的排除

(3)数据加工

  • 数据抽取:是指保留数据表中某些字段的部分信息,组合成一个新字段。截取某一字段的部分信息——字段分列;将某个字段合并为一个新字段——字段合并;将原数据表没有但其他数据表中有的字段,有效的匹配过来——字段匹配。
  • 数据计算
  • 数据转换

(4)数据抽样

  • 普查:对总体中的对象一一进行观察、访问与记录,确定资料。耗时费力耗钱
  • 抽样:从调查对象中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式。(rand())

猜你喜欢

转载自blog.csdn.net/mengjizhiyou/article/details/82829442