论文学习——时间序列的距离模式

写在前面:《时间序列的模式距离》;《浙江大学学报(工学版); 2004年7月发表;》

在这里插入图片描述

1 摘要

  1. 基于时间序列的分段线性表示,针对变化趋势,提出了时间序列的模式表示。
  2. 模式表示方法,无需对测量尺度进行标准化处理,因此可以实现对模式距离的快速计算。
  3. 模式表示,可以克服以点距离为基础的时间序列 误匹配 以及物理概念不明确的缺陷

2 引言

  1. 时间序列的知识发现,是数据挖掘的一个重要部分

  2. 特别是时间序列的变化趋势,反映了序列的动态特性,具有更高的使用价值。

  3. 但是,目前的序列匹配,一般是对序列采用点距离的度量,或者改进方法,进行计算。

  4. 为了防止数据单位不用,导致数据量差异过大而造成的误差,必须先对比较序列进行标准化处理,这会大大增加处理的计算量。【我觉得,算一个标准化…也就,可能是因为现在2022年了,真的没有什么太大计算量…又不是算图神经网络…】

  5. (一个点距离的缺点)采用不同的标准化方法,会得到不同的距离,这使得最终得到的比较结果的 物理概念并不明确。(也就是说,标准化之后,就缺失了实际意义吧?)

  6. (又一个点距离的缺点)以“点距离”为基础的方法,对以“变化趋势”为重点的时间序列匹配,存在本质的缺陷,因为点距离是一种静态度量,无法体现时间序列的动态特性。

2.1 举个例子

序列1、3有着相近的变化趋势
而序列1、2的变化趋势的相似性相对较小

基于距离的判别,会把1,2 分在一组
因为聚义点距离的方法不具备多分辨率特性,不能有效反应时间序列在不同分析频率下的相似性。

在这里插入图片描述

3 文章核心点

  1. 本文在时间序列的分段线性表示的基础上,进一步提出时间序列“模式”概念。
  2. 它根据时间序列的变化趋势,将序列分成若干个子集,每个子集代表一种模式。

4 时间序列的模式表示

  1. 首先,将连续的序列分段,分段数K 是由用户指定的。
    然后我们得到 分段的线性表示 S S S
    S S S 有三个数据成员,分别表示这个段的 起始值、终止值 和 序号
    在这里插入图片描述

需要注意的是,比如说我的序列长度500,如果我定义分段50,那么就是10个数据点为一段,中间的所有数据会被丢失。

  1. 定义三种模式, { 上升、下降、保持 } ,为了方便计算,表示为 {1, 0, -1 }
    这样一来呢,序列 S S S就可以表示为 {m, t}
    m 表示模式 {0, 1, -1}
    t 表示序列结束时间
    在这里插入图片描述
    在这里插入图片描述

5 实验

  1. 数据采用的是 三个股票数据
  2. 分段数指定为50
    在这里插入图片描述
    在这里插入图片描述
    根据点距离和模式距离的比较,作者给出的结论是,三种序列模式在 模式距离 中是存在相似性的,可以划分为一类。

5.1 变换一下分段数

在这里插入图片描述

6 结语

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125079177
今日推荐