《python数据分析读书笔记》--- 数据探索(一)

版权声明:所爱隔山海。 https://blog.csdn.net/tongxinzhazha/article/details/78733728

前言

当收集到初步的样本数据集后,需要对数据从数据质量分析和数据特征分析两个方面进行探索分析,其中,数据质量分析要求我们先检测数据的是否存在缺失值和异常值;而数据特征分析要求我们在数据挖掘建模前,通过频率分布分析,对比分析,帕斯托分析,周期性分析,相关性分析等分析方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘等后续环节提供支持。

数据质量分析

一般不符合要求,不能直接进行分析的数据称之为脏数据,而数据质量分析主要是就是检测原始数据中是否有脏数据,一般脏数据包括以下内容:

  • 缺失值
  • 异常值
  • 不一致值
  • 重复数据和含有特殊符号

(1) 缺失值分析
数据缺失一般是记录缺失和记录中的某个字段缺失,两者都会造成分析数据结构不准确。从总体上讲,一般分为3中处理方法,分别是删除,填充,以及不处理。
(2) 异常值分析
数据异常是指收集数据的个别数据录入错误和不合常理的,其明显偏离其余的观测数据。
其中分一下三个方面进行分析

  • 简单统计分析
    统计量最大值和最小值,判断是否超过合理范围。
  • 3倍标准差原则
    对于服从正态分布的数据,异常值定义为测试值中与平均值相差3倍标 准差的值,而对于非正态分布,可设定为远离平均值的多少倍标准差来选取异常值。
  • 箱形图模型
    指标如下
    QL 下四分位数,表示全部观测值有四分之一数据比它小
    QU 上四分位数,表示全部观测值有四分之一数据比它大
    IQR 四分位数间距,IQR = QU-QL
    异常值定义为:小于QL-1,.5IQR 或者 大于QU+1.5IQR

    这里写图片描述

(3) 一致性分析
数据一致性是指数据的矛盾性和不相容性,不一致一般发生于数据集成过程中,可能是多数据源集成,对于重复放置的数据未能够进行一致性更新造成的。例如,两张表都存放用户的TEL,当用户更新TEL时候,一张表更新,而另外一张没有更新,则导致了不一致的数据。

数据特征分析

(1) 分布分析
分布分析解释数据的分布特征和分布类型。数据一般分为两种类别,定量数据与定性数据,定量数据一般是用现象的数值来表示现象的数据特征,而定性数据则是根据分析者的经验直觉等,对分析数据的品质特征,常进行的是分类分布。所以定量数据的分布分析常使用下列步骤进行。

  • a. 求极差。 (极大值减去极小值)
  • b. 决定组距和组数。(组数=极差/组距)
  • c. 决定分点。
  • d.列出频率分布表。(组段/组中值/频数/频率/累计频率)
  • e. 绘制频率分布直方图。

而定性数据分布分析常使用的是饼图和条形图。

(2) 对比分析
对比分析是指将两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢和各种关系是否协调。(曲线的对比图)

(3) 周期性分析
探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。时间尺度可以分为年度、季度、月度、周度、日度、小时周期性趋势。

猜你喜欢

转载自blog.csdn.net/tongxinzhazha/article/details/78733728