论文学习——分段时间序列相似性研究与应用

写在前面:这是一篇硕士论文。我的idea被导师毙掉了,现在我又开始从头搭建我的碉堡…

在这里插入图片描述

1 时间序列挖掘 (TSDM, Time Series Data Mining)

  1. 定义:基于一个或多个时间序列的数据挖掘,它的任务是从时间序列中提取相关规律,分析其数值周期,以及对其进行预测等。
    【先一个序列,然后再多个序列】

  2. 基本所有时间序列数据挖掘方法都要涉及到相似性分析,例如时间序列的分类、聚类、相似性搜索、分段、异常检测和主题发现。

  3. 水文时间序列数据挖掘目前主要的研究方向,集中于分类预测、相似性度量 和模式发现等等。

1.1 研究时间序列相似性度量方式

一元时间序列度量方式:

  1. 基于 Euclidean 距离
  2. 基于 DTW 距离
  3. 基于斜率距离
  4. 基于模式距离

多元时间序列的相似性度量方式:
5. 基于 BORDA计数法的度量
6. 基于主成分分析(PCA)的度量
7. 改进PCA度量方式的相似性度量
8. 结合PCA及隐马尔科夫模型的度量
9. 基于点分布特征的度量

在这里插入图片描述

1.2 研究时间序列分段表示方式

  1. 线性分段表示PLR —— 首先选取分段点,分段点一般是极值点、关键点、重要点,然后将分段点直接首尾相连。
  2. 基于PAA的分段线性表示算法 —— 用等宽度窗口分割时间序列,每个窗口内的时间序列用序列均值来表示。FPAA克服了窗口必须等长的缺陷,并且支持时间序列在线划分。
    在这里插入图片描述

1.3 降雨时间序列数据集

  1. 降雨的水文过程本身是不连续的,是一种离散、分段时间序列,本文提出的降雨站点时间序列的特征量,是基于单场降雨的统计量,因为实际上单场降雨能放映出降雨时间序列更丰富的信息。
  2. 在2012年是缺乏 对单场降雨序列之间相似性内容的研究的

2 数据挖掘中的聚类方法及时间序列相似性分析

  1. 聚类分析时间序列相似性分析是数据挖掘中两个非常有活力的领域。

2.1 聚类的定义

1974年Everitt 把聚类进行定义;同一类内对象相似,不同类内对象不相似。
同一类内两点间距应小于不同类内两点的距离,类是多维空间中数据密度较高的联通区域,通过数据密度较小的区域隔开。

聚类实际上是一个无监督的分类,它没有任何先验知识可用。

2.2 K-means的局限性

  1. 聚类数K是需要用户事先指定的,大部分是给出一个范围,然后去尝试,根据一定的聚类结果标准判定K的取值,这在一定程度上加大了算法的复杂性;

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/124946021