写在前面:《时间序列的模式距离》;《浙江大学学报(工学版); 2004年7月发表;》
1 摘要
- 基于时间序列的分段线性表示,针对变化趋势,提出了时间序列的模式表示。
- 模式表示方法,无需对测量尺度进行标准化处理,因此可以实现对模式距离的快速计算。
- 模式表示,可以克服以点距离为基础的时间序列 误匹配 以及物理概念不明确的缺陷
2 引言
-
时间序列的知识发现,是数据挖掘的一个重要部分
-
特别是时间序列的变化趋势,反映了序列的动态特性,具有更高的使用价值。
-
但是,目前的序列匹配,一般是对序列采用点距离的度量,或者改进方法,进行计算。
-
为了防止数据单位不用,导致数据量差异过大而造成的误差,必须先对比较序列进行标准化处理,这会大大增加处理的计算量。【我觉得,算一个标准化…也就,可能是因为现在2022年了,真的没有什么太大计算量…又不是算图神经网络…】
-
(一个点距离的缺点)采用不同的标准化方法,会得到不同的距离,这使得最终得到的比较结果的 物理概念并不明确。(也就是说,标准化之后,就缺失了实际意义吧?)
-
(又一个点距离的缺点)以“点距离”为基础的方法,对以“变化趋势”为重点的时间序列匹配,存在本质的缺陷,因为点距离是一种静态度量,无法体现时间序列的动态特性。
2.1 举个例子
序列1、3有着相近的变化趋势
而序列1、2的变化趋势的相似性相对较小
基于距离的判别,会把1,2 分在一组
因为聚义点距离的方法不具备多分辨率特性,不能有效反应时间序列在不同分析频率下的相似性。
3 文章核心点
- 本文在时间序列的分段线性表示的基础上,进一步提出时间序列“模式”概念。
- 它根据时间序列的变化趋势,将序列分成若干个子集,每个子集代表一种模式。
4 时间序列的模式表示
- 首先,将连续的序列分段,分段数K 是由用户指定的。
然后我们得到 分段的线性表示 S S S
S S S 有三个数据成员,分别表示这个段的 起始值、终止值 和 序号
需要注意的是,比如说我的序列长度500,如果我定义分段50,那么就是10个数据点为一段,中间的所有数据会被丢失。
- 定义三种模式, { 上升、下降、保持 } ,为了方便计算,表示为 {1, 0, -1 }
这样一来呢,序列 S S S就可以表示为 {m, t}
m 表示模式 {0, 1, -1}
t 表示序列结束时间
5 实验
- 数据采用的是 三个股票数据
- 分段数指定为50
根据点距离和模式距离的比较,作者给出的结论是,三种序列模式在 模式距离 中是存在相似性的,可以划分为一类。