数据挖掘流程学习笔记—数据探索

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012535605/article/details/83023888

数据挖掘流程

1.数据探索

1.1 数据质量分析

a. 缺失值

原因:有些信息暂时无法获取或者代价太大;有些信息被遗漏;属性值影响

影响:丢失大量有用信息;模型的不确定性更加显著,蕴含的规律难以把握;不可靠的输出

处理方法:删除存在缺失值的记录;插补;不处理

b.异常值

原因:录入错误、含有不合理数据

处理方法:简单统计量分析;箱型图分析等

c.一致性分析:数据的矛盾性、不相容性

1.2  数据特征分析

a.分布分析:极差、方差、组距、频率等

b.对比分析:绝对比较、相对比较

1.3 统计量分析

a.集中趋势:均值(对极端值很敏感)、中位数、众数

b.离中趋势:极差、标准差、变异系数、四分位数间距

1.4 周期性分析:趋势

1.5 贡献度分析:二八法则

1.6 相关性分析:属性相关性

2.数据预处理

2.1 数据清洗:删除原始数据中无关、重复的数据,平滑噪声,筛选掉与挖掘主题无关的数据,处理缺失值和异常值

2.2 数据集成:将多个数据源合并存放在一个一致的数据存储中的过程

3.数据变换

1.简单函数变化:平方、开方、取对数

2.规范化:最小最大值、零均值、小数定标

4.连续属性离散化

1.离散化:等宽、等频、基于聚类

2.属性构造:利用已有的属性构造新属性

3.小波变换:多分辨率、通过伸缩和平移对信号进行多尺度分析

5 数据规约

1.属性规约: 包括增加和删除属性

2.数值规约: 选择替代的、较小的数据来减少数据量

猜你喜欢

转载自blog.csdn.net/u012535605/article/details/83023888