从散乱数据中获取洞察令你焦头烂额?别急,救星来了!

数据具有许多形式,散乱无章。 无论我们谈论的是 缺失数据、非结构化数据, 还是缺乏常规结构的数据, 都需要采用某些方法对数据执行清理, 才能处理数据以改进数据质量。 这个系列教程探索了处理实际数据的重要问题, 以及可以应用的一些方法。

这个系列教程分为3个部分:处理散乱数据,从干净的数据集中获取宝贵洞察和可视化数据。

第一部分:处理散乱数据。发现为执行验证和处理而清理数据的相关常见问题及其解决方案。您还将找到一个自定义工具,该工具用于执行数据清理和合并数据集以供分析。主要包含以下几个部分:

  • 什么是散乱数据
  • 数据格式和模式
  • 数据混合或融合
  • 数据清理方法
  • 数据概要分析
  • 构建一个数据清理工具
  • 开源数据清理工具

第二部分:从干净的数据集中获取宝贵洞察。了解 VQ 和 ART 算法。VQ 可以快速高效地对一个数据集进行聚类,而 ART 可以根据该数据集来调节聚类次数。主要包含以下几个部分:

  • 矢量量化
  • 实现 VQ
  • 通过 VQ 进行聚类
  • 自适应共振理论
  • 实现 ART
  • 通过 ART 进行聚类

第三部分:可视化数据。探索可视化数据的一些更有用的应用,以及一些可用来创建这种可视化的方法,包括 R 编程语言、gnuplot 和 Graphviz。主要包含以下几个部分:

  • 可视化原始数据集
  • 可视化运算过程
  • 可视化集群

赶快点击“阅读原文”get 完整文章, 玩转数据做精准洞察!

猜你喜欢

转载自my.oschina.net/ibmdw/blog/1631707
今日推荐