时间序列聚类算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解读

摘要

本文提出了一个新颖的时间序列聚类算法k-shape，该算法的核心是迭代增强过程，可以生成同质且较好分离的聚类。该算法采用标准的互相关距离衡量方法，基于此距离衡量方法的特性，提出了一个计算簇心的方法，在每一次迭代中都用它来更新时间序列的聚类分配。作者通过大量和具有最好距离衡量方法的划分聚类，分层聚类，谱聚类比较的实验证明k-shape的鲁棒性。总之，k-shape是准确、高效的时间序列算法。

1.介绍

多数时间序列分析方法，包括聚类算法，依赖于距离衡量的选择，当比较两个序列的时候关键的问题是如何处理扭曲问题，这也是时间序列的特征。理想情况下，基于shape的聚类算法基于shape相似性将时间序列划分到同一聚类中，而不是幅度和阶段的不同。

由于时间序列的特殊行，更多研究的关注点是距离衡量的创新而不是聚类算法的创新，因此，时间序列聚类算法主要依赖于经典的聚类算法要么将其中的距离衡量换成适合时间序列的，要么将时间序列转换成合适数据从而现有的算法可以直接使用。但是聚类算法的选择影响两个方面：（i）准确度，因为每个算法衡量同质和分离的方法不同。（ii）效率，因为方法之间的计算复杂度不同。

现有的基于shape的方法主要有两个缺陷：（i）这些方法无法扩展到大数据集上，因为这些方法计算或者距离衡量耗时。（ii）现有方法的有效性局限于特定的领域或者数据集。而且这些算法没有和经典的如划分聚类等进行比较。

本文提出的k-shape方法和k-means有些相似但是有明显的不同，k-shape方法计算簇心的方式以及距离衡量和k-means不同，k-shape在比较的时候尽量保留时间序列的形状，因此，k-shape需要一个伸缩变换不变性的距离衡量方法。和别的聚类算法不同，k-shape采用互相关统计方法，基于互相关的特性提出了一个新颖的计算簇心的方法。

为了证明k-shape方法的有效性，作者在48个数据集上进行了大量的实验并且和现有的时间序列距离衡量和聚类算法进行比较。时间结果表明：（1）自相关衡量方法比ED优越，而且和现有的限制DTW一样具有竞争力，但是运行速度更快。（2）k-means方法由于距离衡量方法和簇心计算方法问题而导致性能变差。（3）聚类算法的选择和距离衡量一样重要。（4）k-shape算法比所有的可扩展方法的准确性都好，而且比不可扩展方法，除了一个性能相同，准确性要好。但是这些方法需要调整距离衡量方法，并且比k-shape慢。因此，k-shape是高准度而且可扩展的时间序列算法。

2、初步

本部分，首先回顾时间序列中存在的扭曲问题以及距离衡量方法，然后现有的时间序列聚类方法和簇心计算方法。最后阐述关注的问题。

2.2 时间序列距离衡量

最常见的距离衡量即使ED，如下所示：

另一个就是DTW，DTW可以看成是经过非线性校准的ED的拓展，如下图所示：

DTW原理解读参考这篇博客：https://blog.csdn.net/raym0ndkwan/article/details/45614813

2.3 时间序列聚类算法

基于原数据的方法需要寻找一个适合时间序列的距离衡量方法替代默认的距离衡量方法，相反，基于特征或者基于模型的方法需要调整特征或者模型，本文采用的是基于原数据的方法。

3、k-shape聚类算法

3.1 时间序列相似性