地理信息|空间数据挖掘预处理

​空间数据挖掘在获取数据后第一件事情就是对数据进行预处理。

预处理原因:数据质量差

  1. 数据不完整

  2. 噪声

  3. 不同数据源获取的统一数据不一致

而高质量的数据才有高质量的结果,预处理目的有两个,提高数据质量,加快挖掘信息的速率。

预处理的主要任务有:

  1. 数据清理:填空缺,去噪声(这两个一般用插值),识别或删除离群值(与实际情况偏离较大但是不是噪声的有用点),解决不一致(看数据的可靠性之类的)

  2. 数据集成:集成到数据库,数据立方体(逻辑上等同于EXCEL数据透视表),文件

  3. 数据归约:数据集简化的表示,理解为小数据集,能得到大数据集相同或相似的结果。主要方法有给出特征子集(就是删多余数据),主成分分析。

  4. 数据变换:规范化。

  5. 数据离散化:离散化数据,概念分层。各种划分方法:分级,直方图,聚类,决策树~

具体处理不说了,一般来说就是常规统计方法和线性平滑。


新出来的概念大概是数据库、数据仓库和数据立方体。

数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

数据库与数据仓库区别

(感觉类似面向流程和面向对象~蜜汁感觉)

数据仓库基于多维数据模型,其中数据立方体最为典型。

看了一大圈,才发现思想和EXCEL数据透视图一样一样的。就是能把不同的维度抽出来可视化,但实际底层储存应该还是和数据库差不多,都是一张张表。

事实表对应数据库,维表对应数据仓库,不同的维组成数据立方体。对某一数据立方体能进行上卷、下钻、切片和切块、转轴等操作。

上卷:某一维度进行合并,比如6个城市归并到两个国家。

下钻:与上卷对应,2个国家拆成6个城市。

切块:只取数据立方体一部分研究,得到立方体一块。

切片:只取数据立方体一个维度里面的一项。如之前研究全国,现在只研究一个城市。

转轴:坐标转换...


最后,上升到专业——空间数据挖掘预处理。

emmm,感觉没啥多的东西,就是把人家数据挖掘的东西套在地理层面上...

空间数据仓库:面向主题的、集成的、时变的和非易失性的空间和非空间数据的集合,支持空间数据挖掘和与空间数据相关的决策过程。(真就生搬硬套概念...)

实现方面主要多了GIS技术,采用星型/雪花模式。

(大的事实表催生各种维度表)

空间数据立方体可以有三个基本维:非空间维(非空间数据,如降雨,气温),矢量维(矢量数据)和栅格维(栅格数据)。以及催生了4种混合维。

最后讲空间数据挖掘的时候,感觉总体向空间数据仓库偏移,然后有种努力想建立体系但是又很杂反而说不出来很多东西的感觉...(当然,也有可能我太菜了QAQ,反正就是建立不了体系,这章其实读下来,通篇就四个字,数据仓库....)

发布了11 篇原创文章 · 获赞 2 · 访问量 858

猜你喜欢

转载自blog.csdn.net/chengduxiu/article/details/104149549