Python数据挖掘的——数据探索详解

版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84852768

数据质量分析:

数据质量的分析是数据分析数据中有效数据准备过程中的一个重要环节。是数据预处理的前提重要的环节。也是为数据挖掘的分析的有效性和准确性的基础。

数据质量的分析主要是原始数据中是否存在肮数据。脏数据包括是:缺失值 不一致的数据 重复数据或者是特殊的符号

数据特征分析:

只要是对数据进行质量分析,接下来可以通过绘制图表,计算某些等手段进行数据的特征的分析。

1、分布分析:具体的步骤:1求极差、2决定组数与组数 、3决定分点  、4列出频率分布性、5绘制频率分布图

遵循的原则:1各组之间必须排斥、2各组的数据必须所有的数据都应该包含在内。各组数据的宽度组好相等。

2、定性的对数进行分析:

对于定性的分析,常常根据变量的分类来进行分组,可以采用饼状图和条形的来进行描述定性变量的分布。

对比分析:

1绝对数比较

2相对数比较(结构相对数、比例相对数、比较相对数、强度相对数、计划完成程度相对数、动态相对数、)

统计量的分析:

1均值的计算 2中位数的计算3 众数的计算 4极差的计算 5 标准差的计算 6 变异系数的计算 7四分数的计算

周期性分析:

周期性分析是探索某个变量的是否随着时间呈现周期的变化的趋势时间尺度相对较长的周期性有年度的周期性的趋势,甚至是天数,小时的周期性的趋势。

贡献度分析:

又称为20/80定律 同样的投入放在不同的地方会产生不同的效益。

相关性分析:

绘制散点图、绘制散点矩阵图片 相关系数的计算

python主要探索的函数:

拓展统计函数:

猜你喜欢

转载自blog.csdn.net/weixin_41605937/article/details/84852768