[数据分析学习笔记] 数据预处理

数据分析学习笔记 —— 数据预处理

数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。

数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。

知识点总结如下图所示:


数据预处理的主要过程 

数据清洗:主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。

数据集成:将多个数据源合并存放在一个一致的数据存储(如:数据仓库)中的过程。

数据变换:对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要。

数据规约:在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。

发布了646 篇原创文章 · 获赞 198 · 访问量 69万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/105375036