时间序列早期分类问题定义和基本思想以及具体方法简述

时间序列分类是将待测样本分配到预先定义好的类别中。

时间序列数据定义：
狭义：按时间顺序排序的一组数据。
广义：任何实质性的有次序的序列都可以当作时间序列处理。
应用：医学诊断、灾害预测、入侵检测、过程控制、道路交通等方面。

早期分类特点：针对时间序列数据尽早做出预测，并满足预测的质量。更注重优化分类的早期性。在一些领域中越早做出分类用来指导决策越有利。

早期的分类器满足需两个要求。首先，早期分类器应该能够确定可靠分类的最早时间，以便早期预测可以用于进一步的动作。其次，早期分类器应保持与使用全长时间序列或某些用户指定的准确度阈值的分类器相当的准确度。

时间序列早期分类,是针对时间序列数据尽早的做出预测同时满足预期的预测质量,即在满足一个给定的最小的准确率情况下,早期分类尝试着优化分类的早期性,而不是像其他一般分类方法最大化准确率。

Spatial-Temporal时间序列预测建模方法汇总

具体方法一览

按照变量数量可分为单变量时间序列和多变量时间序列的早期分类方法。
而按照方法实现内核，可分为以下三类：

基于原始数据分类(from 2008)。
GSDT：分治策略构造分类模型。
SCR:挖掘系列分类规则并构造分类器，根据早期预测效应值在序列枚举树中进行剪枝来构造特征与规则。
以上适用于符号序列。
2009
最小预测长度（MPL）
时间序列早期分类方法（ECTS）[~~方法与问题重名~~ ]，既能保证分类准确率，又能实现早期分类。
Fixed 1NN分类器 ,用固定长度MPL，适用于2-class，也改进了ECTS。
基于特征的时间序列早期分类。
【具有可解释性的特征】shape-let，时间序列的子序列。最大程度上代表某一类的特性。
2011年
BMD 计算量大，计算时间长。
2012年
MSD
2013年
MCFEC 挖掘核心特征。考虑了不平衡性，对于稀有但具有区别性的核心特征也能选出。
EPIMTS 欠抽样方法来处理不平衡数据集
2015年
REACT方法。针对数值和符号属性。
基于模型的时间序列早期分类(重点)。

早期分类难点(痛点)

对于时间序列,长度随着时间在不断增加,因此时间序列的长度(也称之维数)是实际分类中需要面临的一大难题。而早期分类的特性,使得大多数维数约简方法无法用于早期分类的实际应用中。
一旦涉及到多变量早期分类，变量间就会存在冗余等问题，维度和复杂度会得以提高。(其实和上面问题殊途同归)
很难同时在兼容早期分类特性的基础上使得准确率提高。

早期分类的应用：

时间序列早期分类在一些时间敏感的应用领域至关重要,例如早期诊断、健康信息学、灾害预测、入侵检测、气体识别、股市行情预测，个人电力消费等领域。

早期分类以前成为热点，现在也不算冷门的原因：

多变量时间序列早期分类在时间序列挖掘中是个热点。

因为他的多变量性和不同组成部分的序列长度可能不同，以及不同变量之间可能存在关联性，不好用传统数据挖掘算法对多变量时间序列处理。
以前分类针对小型数据集，目前有大数据集迫切需要解决。
如何提高精度实现早期分类。
基于模型分类方法研究目前百花齐放，值得探讨。

问题定义

时间序列 s 是对（时间戳，值）的序列。数据值按时间戳升序排列。我们假设所有时间戳都采用正整数值。我们用 s[i] 表示时间序列 s 在时间戳 i 处的值。

为了使讨论简单，在本文中，我们假设所有时间序列的长度为 L，即每个时间序列 s 在时间戳 1 ≤ i ≤ L 处具有值 s[i]。L 称为时间序列的完整长度。一般来说，我们可以使用动态时间扭曲等技术来对齐不同长度的时间序列。

对于长度为 L 的时间序列 s，s[i, j] = s[i]s[i + 1] ··· s[j] (1 ≤ i<j ≤ L) 是时间戳间隔 [i , j]。子序列 s[1, l] (l ≤ L) 是 s 的长度为 l 的前缀。对于两个时间序列 s 和 s’ ， $\operatorname{dist}\left(s, s^{\prime}\right)$ 表示它们之间的距离。在本文中，我们使用欧几里德距离 $\operatorname{dist}\left(s, s^{\prime}\right)=\sqrt{\sum_{i=1}^{L}\left(s[i]-s^{\prime}[i]\right)^{2}}$ ，这是一种简单而有效且被普遍采用的选择。

长度为 L 的所有可能时间序列的集合是 RL，称为全长空间，其中 R 是实数的集合。长度为l 的前缀空间，用 Rl 表示，是所有可能时间序列的长度-l 前缀的集合。

在时间序列分类中，训练集 T 包含一组时间序列和一组类标签 C，使得每个时间序列 t ∈ T 带有一个类标签 t.c ∈ C。时间序列分类问题是从 T 中学习分类器 C : RL → C 使得对于任何时间序列 s，C 通过 C(s) 预测 s 的类标签。分类器的性能通常使用测试集 T 进行评估，该测试集是一组时间序列，使得每个时间序列 t ∈ T 也带有类标签 t .c ∈ C。分类器C的准确性是通过C 生成的类标签与测试集中时间序列所携带的类标签匹配的百分比，即 $\operatorname{Accuracy}\left(C, T^{\prime}\right)=\frac{\left|\left\{C\left(t^{\prime}\right)=t^{\prime} \cdot c \mid t^{\prime} \in T^{\prime}\right\}\right|}{\left|T^{\prime}\right|}$ .通常，我们希望分类器 C 尽可能准确。

对于时间序列 s，早期分类器 C 可以识别整数 l0 并根据 s[1， l0] 进行分类。如果C（s[1， l0]） = C（s[1， l0 + i]）对于任何i>0，早期的分类器都是序列化的。换句话说，C可以通过使用任何更长的前缀来保持相同。早期分类器最好是顺序的，以便早期分类可靠且一致。C 做出预测所依据的前缀的最小长度 l0 称为预测成本，记为 Cost(C, s) = l0。很简单，对于任何有限时间序列 s，Cost(C, s) ≤ |s|。预测的成本是 $\operatorname{Cost}\left(C, T^{\prime}\right)=\frac{1}{T^{\prime}} \sum_{t^{\prime} \in T^{\prime}} \operatorname{Cost}\left(C, t^{\prime}\right)$ 。

在许多可用于时间序列分类的方法中，1-最近邻 (1NN) 分类器在实践中通常是准确的。 1NN分类方法是无参数的，不需要特征选择和离散化。从理论上讲，当使用无限样本集时，1NN 分类器的错误率最多是最佳贝叶斯概率的两倍。由于 1NN 分类器对时间序列数据的有效性和简单性，在本文中，我们专注于扩展 1NN 分类器以对时间序列数据进行早期分类。我们使用全长时间序列上的 1NN 分类器作为比较基准。理想情况下，我们希望构建一个与基线方法一样准确并最小化预期预测成本的分类器。

在我们之前的工作 [Xing et al., 2008] 中，我们制定了符号序列数据的早期分类问题。主要思想是挖掘在早期预测中具有很高效用的符号顺序模式，然后使用这些模式形成分类规则或决策树。时间序列是数字的。要使用我们的符号方法，必须正确离散时间序列。然而，10 的适当离散很大程度上依赖于良好的背景知识。此外，受离散化粒度的影响，基于离散化的方法可能会丢失时间序列数据中的重要信息。我们之前的研究 [Xing et al., 2008] 表明符号方法在数值时间序列数据上效果不佳。因此，对时间序列数据（一种在时间敏感的应用程序中流行的数据类型）的早期预测仍然是开放的。

符号序列数据上的分类问题。主要思想是挖掘在早期预测中具有高度效用的符号顺序模式，然后使用这些模式形成分类规则或决策树。时间序列是数字。要使用我们的符号方法，必须正确离散化时间序列。然而，适当的离散化往往在很大程度上依赖于良好的背景知识。此外，受离散化粒度的影响，基于离散化的方法可能会丢失时间序列数据中的重要信息。我们之前的研究[Xing等人，2008]表明，符号方法在数值时间序列数据上不能很好地工作。因此，对时间序列数据（一种在时间敏感型应用程序中普遍存在的数据）的早期预测在很大程度上仍然是开放的。

据我们所知，[Rodriguez and Alonso, 2002] 是现有的唯一一项提到对时间序列数据进行早期分类的研究，这是指只有部分时间序列可用时的分类。它侧重于如何对部分信息进行预测，但不尝试使用最小的部分信息进行可靠的预测。

通常，大多数现有的序列分类方法将序列转换为一组特征，然后对特征应用常规分类方法。例如，Lesh 等人。 [1999] 提出了一种为序列分类选择特征的标准。 Nanopoulos 等人。 [2001] 从时间序列中提取均值和偏差等统计特征，并在这些特征上建立神经网络对时间序列进行分类。埃兹等人。 [2005] 采用语法引导的特征提取并提出了 SVM 分类器。

不同于基于特征的分类器，基于实例的分类器 [Keogh and Kasetty, 2002;魏和基奥，2006； Xi et al., 2006]，例如 1NN 分类器，根据待分类的时间序列与训练集中的时间序列之间的相似性进行预测。距离度量的选择对于 1NN 分类器的性能至关重要。显示了欧几里得距离 [Keogh and Kasetty, 2002;Wei and Keogh, 2006] 与其他相似性测量相比，准确性更高。席等人。 [2006] 表明，在小型数据集上，动态时间规整 (DTW) 等弹性度量可以比欧几里得距离更准确。然而，在大型数据集上，弹性度量的准确性与欧几里得距离收敛。在本文中，我们专注于扩展具有欧几里得距离的 1NN 分类器以实现早期分类。然而，我们的原则可以应用于使用不同距离度量的其他基于实例的方法。

参考：
[1] 【笔记】时间序列早期分类
[2] 马超红.(2018).时间序列早期分类研究(硕士学位论文,河北经贸大学).
[3] Xing, Z., Pei, J., & Philip, S. Y. (2009, June). Early prediction on time series: A nearest neighbor approach. In Twenty-First International Joint Conference on Artificial Intelligence.
[4] Xing, Z., Pei, J., Yu, P. S., & Wang, K. (2011, April). Extracting interpretable features for early classification on time series. In Proceedings of the 2011 SIAM international conference on data mining (pp. 247-258). Society for Industrial and Applied Mathematics.
[5] Xing, Z., Pei, J., & Yu, P. S. (2012). Early classification on time series. Knowledge and information systems, 31(1), 105-127.