目录
时间序列数据挖掘(Times Series Data Mining)
什么是时间序列?
时间序列是按时间顺序进行的观测的集合,与大多数类型的数据相比,时间序列更易于观察和直观。许多不是真实时间序列的数据类型可以有效地转换为时间序列,包括DNA、语音、纹理、核心样本、ASCII文本、历史笔迹、小说甚至形状。
时间序列的相似性度量
相似性度量比较两个时间序列,产生一个值表示他们的相似性。
同步措施:
欧式距离(Euclidean Distance)
相关系数(Correlation Coefficient)
余弦相似性(Cosine Similarity)
弹性措施:
动态时间规整(Dynamic Time Warping)
编辑距离(Edit Distance)
最大公共子序列(Longest Common Subsequence)
欧式距离(Euclidean Distance)
相关系数(Correlation Coefficient)
欧式距离与相关系数的关系
推导如下:
动态时间规整算法
算法描述
动态时间规整算法(Dynamic Time Warping),是一种衡量两个长度不同的时间序列的相似度的方法。在大部分的学科中,时间序列是数据的一种常见表达形式。对于时间序列的处理来说,普遍任务就是比较两个序列的相似性。