文章目录
写在前面:《水文》;2009年;
作者:李薇、孙洪林
1 摘要
- 水文时间序列相似性查询,可以用于雨洪过程预测、环境演变分析、水文过程规律分析等方面。
- 最为直接的应用是,回答防汛指挥中经常问到的:“当前水文过程相当于历史上哪一时期的同类过程”
- 引入数据仓库和数据挖掘挖掘理论与技术。
2 引言
3 问题描述
传统的时间序列相似性搜索研究,主要强调精确匹配,但是在数据挖掘应用中,由于数据量巨大,一般采用基于近似匹配的“近似搜索”。
水文时间序列相似性挖掘的关键工作有:
-
子序列的划分。 在国家水文数据库中,洪水工程已经按照产汇流理论进行了划分,形成了各类要素的摘录表。
但是,在日值类过程中,则需要按拟解决的问题类型进行划分,需要使得划分规则既符合水文理论,又适合计算机处理。 -
序列特征提取。一般是对序列进行变换,例如傅里叶变换、小波变换或者分段平均等方法映射到特征空间。
-
相似性度量的确定。对于水文过程而言,不同的水文要素过程有不同的特征。因此要根据水文过程的特点,确定与之相适应的相似性度量。
4 理论方法
水文时间序列的相似性查询,所需处理的数据对象以水文数据为基础,其过程主要可以分为两个主要的阶段:查询准备阶段和相似性查询阶段。
-
查询准备阶段。 包括数据预处理与时间序列的特征提取。
① 在任何一种数据挖掘任务中,数据预处理都是必不可少的关键工作之一,该模型中数据预处理涉及数据集成、数据净化、数据选择及序列规则化变换等;
② 时间序列的模式表示是时间序列数据挖掘的先决条件,是水文时间序列相似性挖掘的关键问题之一,其效果直接影响数据挖掘的结果。 -
相似性查询阶段。 主要是用户提交查询请求,系统在模式表示的基础上根据相似性度量方式进行模式匹配,并将结果可视化展示给用户。
模式匹配(相似性度量)+ 时间序列的模式表示 并称为时间序列相似性查询的两大基石。
5 基于特征点的分段线性表示
-
时间序列模式表示方法:
本文使用的是:基于特征点的分段线性表示,作为时间序列的模式表示方法。(PLR) -
对于具有明显的周期性和短期模式波动频繁等特点的时间序列,能够有效地实现数据压缩,从而把握时间序列总体模式的变化特征。
-
分段举例如下图所示:
5.1 分段线性表示
5.2 特征点的定义
6 时间序列的相似性度量
-
时间序列的相似性度量定义要满足以下条件:
(1)相似性度量允许不精确匹配,支持时间序列的多种形变;
(2)相似性度量的计算必须高效;
(3)相似性度量应该支持快速索引;
(4)相似性度量可以应用于其他数据挖掘领域,如时间序列的聚类和分类、频繁模式的发现和异常发现等等; -
常见的相似性度量有:Minkowski距离、动态时间弯曲距离、最长公共子串等等。
6.1 动态模式匹配距离(DPM)
- DPM 距离不是基于点与点之间的匹配计算,而是通过模式来匹配的。
- 优点:模式的定义非常 灵活;模式的平均长度一般远大于1,实现了时间序列的降维(时间序列的模式数远小于时间序列的长度)
6.2 算法步骤
-
定义模式。从时间序列中抽取模式特征,将时间序列变换到特征空间,得到时间序列的模式表示。
对于分段线性表示来说,模式就是时间序列字段的插值线段,其特征可以是线段的长度、斜率等等; -
定义模式之间的距离