文章目录
写在前面:这是一篇硕士论文。我的idea被导师毙掉了,现在我又开始从头搭建我的碉堡…
1 时间序列挖掘 (TSDM, Time Series Data Mining)
-
定义:基于一个或多个时间序列的数据挖掘,它的任务是从时间序列中提取相关规律,分析其数值周期,以及对其进行预测等。
【先一个序列,然后再多个序列】 -
基本所有时间序列数据挖掘方法都要涉及到相似性分析,例如时间序列的分类、聚类、相似性搜索、分段、异常检测和主题发现。
-
水文时间序列数据挖掘目前主要的研究方向,集中于分类预测、相似性度量 和模式发现等等。
1.1 研究时间序列相似性度量方式
一元时间序列度量方式:
- 基于 Euclidean 距离
- 基于 DTW 距离
- 基于斜率距离
- 基于模式距离
多元时间序列的相似性度量方式:
5. 基于 BORDA计数法的度量
6. 基于主成分分析(PCA)的度量
7. 改进PCA度量方式的相似性度量
8. 结合PCA及隐马尔科夫模型的度量
9. 基于点分布特征的度量
1.2 研究时间序列分段表示方式
- 线性分段表示PLR —— 首先选取分段点,分段点一般是极值点、关键点、重要点,然后将分段点直接首尾相连。
- 基于PAA的分段线性表示算法 —— 用等宽度窗口分割时间序列,每个窗口内的时间序列用序列均值来表示。FPAA克服了窗口必须等长的缺陷,并且支持时间序列在线划分。
1.3 降雨时间序列数据集
- 降雨的水文过程本身是不连续的,是一种离散、分段时间序列,本文提出的降雨站点时间序列的特征量,是基于单场降雨的统计量,因为实际上单场降雨能放映出降雨时间序列更丰富的信息。
- 在2012年是缺乏 对单场降雨序列之间相似性内容的研究的
2 数据挖掘中的聚类方法及时间序列相似性分析
- 聚类分析和时间序列相似性分析是数据挖掘中两个非常有活力的领域。
2.1 聚类的定义
1974年Everitt 把聚类进行定义;同一类内对象相似,不同类内对象不相似。
同一类内两点间距应小于不同类内两点的距离,类是多维空间中数据密度较高的联通区域,通过数据密度较小的区域隔开。
聚类实际上是一个无监督的分类,它没有任何先验知识可用。
2.2 K-means的局限性
- 聚类数K是需要用户事先指定的,大部分是给出一个范围,然后去尝试,根据一定的聚类结果标准判定K的取值,这在一定程度上加大了算法的复杂性;