论文学习——水文时间序列模体挖掘

写在前面:期刊:《水利学报》;中国水利局;月刊;中文核心期刊

作者信息:
在这里插入图片描述

在这里插入图片描述

1 摘要

  1. 模体是指——在一组序列中重复出现的相似片段模式。时间序列模体数据挖掘就是利用数据挖掘思想,在时间序列中找出重复出现的相似片段的过程。

  2. 算法流程:小波去噪 + 极值点分解 + 符号化得到离散数据,为模体挖掘Sequitur 算法提供输入。

  3. 处理的是水位数据

2 引用

时间序列挖掘,其研究内容一般包括 【时间序列相似性搜索】、【聚类】、【分类】、【序列模式挖掘】、【海量时间序列可视化】、【时间序列预测】等等。

2.1 模体挖掘的概念

模体是是生物学名词,它代表在一组序列中重复出现的相似片段的模式。

这组序列可以是蛋白质序列、RNA序列、DNA序列。

2.2 时间序列模体挖掘

2002年,Lin[2] 等人首次提出时间序列模体挖掘概念后,提出了很多的算法,但是这些算法都有一个共同的缺点:需要用户指定一个表示待发现模体长度的参数。这个长度在挖掘前用户很可能不知道或者非常难以确定。

2.3 前人工作

之前的模式识别缺点:需要用户指定一个表示待发现模体长度的参数。这个长度在挖掘前用户很可能不知道或者非常难以确定。

在这里插入图片描述
但是,文献[9]的出现,改变了这一局面。

  • 该算法,不需要指定模体长度参数,而可以在只遍历一次数据的情况下,挖掘出不同长度的模体

本文提出的方法,就是在该基础上发展而来!所以先学习文献[9] 。

3 文献[9]模体挖掘算法分析

  1. 模体数据挖掘,作为模式发现和相似性搜索的交叉主题,最早在文献[2]中提出。

  2. 作者认为,在时间序列数据库中,查询事前已经知道的序列片段是一个值得重视的问题。

  3. 模体挖掘问题算法,往往难以解决模体变长的问题。

3.1 经典符号化方法

  • SAX表示方法,在时间序列的数据压缩表示上,有着简单实用的特点。共有两个阶段。

在第一阶段,PAA过程阶段。用一段序列的平均值代表该序列;
在第二阶段,符号化阶段,即用不同的符号来表示前一阶段的平均值。

  • PAA过程的本质是把较长的序列先分成间隔相等的若干区间,再在每一区间中用该区间的平均值来代表该区间中的所有值
  • 因为是平均值,所以可以较好的反映出这个区间所有值的一个总体特征,这样PAA过程就在保留原始数据基本特征的基础上起到了降维的作用。
  • 【但是,只用均值划分,会丢失很多中间有用的信息!】

符号化过程建立在PAA过程之上,其作用是根据一定规则,把上一步得到的均值期间,用字母符号表示,从而达到把连续数据符号化(离散化)的目的。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125149896