论文学习——水文时间序列相似性查询的分析与研究

写在前面:《水文》;2009年;
作者:李薇、孙洪林

1 摘要

  1. 水文时间序列相似性查询,可以用于雨洪过程预测、环境演变分析、水文过程规律分析等方面。
  2. 最为直接的应用是,回答防汛指挥中经常问到的:“当前水文过程相当于历史上哪一时期的同类过程”
  3. 引入数据仓库和数据挖掘挖掘理论与技术。

2 引言

在这里插入图片描述

3 问题描述

传统的时间序列相似性搜索研究,主要强调精确匹配,但是在数据挖掘应用中,由于数据量巨大,一般采用基于近似匹配的“近似搜索”。

水文时间序列相似性挖掘的关键工作有:

  1. 子序列的划分。 在国家水文数据库中,洪水工程已经按照产汇流理论进行了划分,形成了各类要素的摘录表。
    但是,在日值类过程中,则需要按拟解决的问题类型进行划分,需要使得划分规则既符合水文理论,又适合计算机处理

  2. 序列特征提取。一般是对序列进行变换,例如傅里叶变换、小波变换或者分段平均等方法映射到特征空间。

  3. 相似性度量的确定。对于水文过程而言,不同的水文要素过程有不同的特征。因此要根据水文过程的特点,确定与之相适应的相似性度量。

4 理论方法

水文时间序列的相似性查询,所需处理的数据对象以水文数据为基础,其过程主要可以分为两个主要的阶段:查询准备阶段相似性查询阶段

  1. 查询准备阶段。 包括数据预处理时间序列的特征提取
    ① 在任何一种数据挖掘任务中,数据预处理都是必不可少的关键工作之一,该模型中数据预处理涉及数据集成、数据净化、数据选择及序列规则化变换等;
    ② 时间序列的模式表示是时间序列数据挖掘的先决条件,是水文时间序列相似性挖掘的关键问题之一,其效果直接影响数据挖掘的结果。

  2. 相似性查询阶段。 主要是用户提交查询请求,系统在模式表示的基础上根据相似性度量方式进行模式匹配,并将结果可视化展示给用户。

模式匹配(相似性度量)+ 时间序列的模式表示 并称为时间序列相似性查询的两大基石。

5 基于特征点的分段线性表示

  • 时间序列模式表示方法:
    本文使用的是:基于特征点的分段线性表示,作为时间序列的模式表示方法。(PLR)

  • 对于具有明显的周期性和短期模式波动频繁等特点的时间序列,能够有效地实现数据压缩,从而把握时间序列总体模式的变化特征。

  • 分段举例如下图所示:
    在这里插入图片描述

5.1 分段线性表示

在这里插入图片描述

5.2 特征点的定义

在这里插入图片描述

6 时间序列的相似性度量

  • 时间序列的相似性度量定义要满足以下条件:
    (1)相似性度量允许不精确匹配,支持时间序列的多种形变;
    (2)相似性度量的计算必须高效;
    (3)相似性度量应该支持快速索引;
    (4)相似性度量可以应用于其他数据挖掘领域,如时间序列的聚类和分类、频繁模式的发现和异常发现等等;

  • 常见的相似性度量有:Minkowski距离、动态时间弯曲距离、最长公共子串等等。

6.1 动态模式匹配距离(DPM)

  1. DPM 距离不是基于点与点之间的匹配计算,而是通过模式来匹配的。
  2. 优点:模式的定义非常 灵活;模式的平均长度一般远大于1,实现了时间序列的降维(时间序列的模式数远小于时间序列的长度)

6.2 算法步骤

  1. 定义模式。从时间序列中抽取模式特征,将时间序列变换到特征空间,得到时间序列的模式表示。
    对于分段线性表示来说,模式就是时间序列字段的插值线段,其特征可以是线段的长度、斜率等等;

  2. 定义模式之间的距离

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125539919
今日推荐