论文学习——基于斜率表示的时间序列相似性度量方法

写在前面:《模式识别与人工智能》;2007年

在这里插入图片描述

1 摘要

  1. 针对含有大量噪声,并存在数据缺失的高维多元时间序列数据;
  2. 本文提出一种基于斜率表示的时间序列相似性度量方法
  3. 该方法是在线性分段的基础上,对两个序列间的斜率差进行加权,因而物理概念更为明确

2 引言

  1. 近年来,有关相似性搜索的问题,成为一个研究热点,主要包括降维、特征提取、相似性度量、相似性搜索等问题。
    【什么是一个合理的相似性度量,要能够自圆其说】

  2. 欧式距离、普通规范距离、动态时间弯曲距离、模式距离、最小距离等等。这些在不同的背景下,都可以作为相似性度量。(度量相似性的有效方法)

  3. 模式距离,更接近自然语言描述,模式定义的物理意义明确,划分更趋合理,但是其表示方法比较粗糙,得出的结论不够明确,因此,本文在此基础上提出一种基于斜率距离的相似性度量。

3 介绍时间序列的斜率集表示

3.1 模式的概念

时间序列的模式,表征为序列中的某个子集单一变化趋势。

在这里插入图片描述

3.2 斜率集

在这里插入图片描述
在这里插入图片描述

3.3 斜率集搜索算法

  • 该算法,将时间序列分段 线性模型 转化为斜率,得到具有 n-1 个以斜率表示的时间序列。

在这里插入图片描述
在这里插入图片描述

3.4 模式距离

这个地方还是可以理解的,比如说“上升”和“下降”之间的距离是2,而“上升”和“保持”之间的距离就是1。

在这里插入图片描述

3.5 斜率距离分析

在这里插入图片描述

3.6 时间对等过程

  • 由于两个序列在分段直线化以后,各个极值点对应的时间不会完全一致,长度也不尽相同。
  • 所以必须进行时间对等过程后,才能使用这种算法。
  • 时间对等过程,就是按照序列的极值点重新划分直线区间,使得序列能够等长,符合算法要求!


在这里插入图片描述

【有理有据,令人信服。十几年前的的学术文章还是非常的科学,不像现在的文章,拼七凑八…】

4 实验分析

  • 每条序列的数据是2800个。
    在这里插入图片描述

·
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125249872