摘要

许多实际应用需要对长时间序列进行预测，例如耗电量计划。长时间序列预测（LSTF）需要模型的高预测能力，这要求具有能有效捕获输出和输入之间精确的长期依赖关系的能力。最近的研究表明，Transformer具有提高预测能力的潜力。但是，Transformer存在一些严重问题，导致其无法直接应用于LSTF，例如二次时间复杂度，高内存使用率以及编码器-解码器体系结构的固有局限性。为了解决这些问题，我们为LSTF设计了一个有效的基于Transformer的模型，称为Informer，它具有三个独有的特征：（i）ProbSparse自注意力机制，该机制在时间复杂度和内存使用上达到 $O (L l o g L)$ ，并且具有在序列依赖性方面具有可比的性能。（ii）自注意力蒸馏通过将级联层输入减半而突出了注意力，并有效地处理了极长的输入序列。（iii）生成样式解码器虽然在概念上很简单，但它会以一种前向操作而不是循序渐进的方式预测较长的时间序列，从而大大提高了较长序列预测的推理速度。在四个大型数据集上进行的大量实验表明，Informer的性能明显优于现有方法，并为LSTF问题提供了新的解决方案。

1.介绍

在这里插入图片描述
　　时间序列预测在许多领域中扮演者重要角色，例如传感器网络监控，能源和智能电网管理，经济和金融以及疾病传播分析。在这些情况下，我们可以利用大量有关过去行为的时间序列数据来进行长期预测，即长时间序列预测（LSTF）。但是，现有方法是在一个有约束的设置下设计的，例如预测未来48个或更少的点。越来越长的序列使模型的预测能力受到挑战，有人认为这种趋势限制了LSTF研究的程度。作为一个经验示例，图（1）显示了在真实数据集上的预测结果，其中LSTM网络预测了从短期（12点，0.5天）到长期（480点，20天）的变电站的每小时温度。当预测长度大于48个点时，总体性能差距很大（图1（c）中的星号），MSE得分上升到不令人满意的性能，推理速度急剧下降，这表明LSTM模型时很糟糕的。
　　LSTF的主要挑战是增强预测能力以满足日益增长的长序列需求，这要求（a）很强的远距离对齐能力和（b）对长序列输入和输出的高效操作。最近，与RNN模型相比，Transformer模型在捕获远程依赖方面显示出优异的性能。自注意力机制可以将网络输入信号传播路径的最大长度减少到理论上最短的 $O (1)$ ，并避免重复结构，从而使Transformer表现出解决LSTF问题的巨大潜力。但是另一方面，由于自注意力机制的 $L$ 二次计算和 $L$ 长度输入/输出的内存消耗，因此违反了（b）的要求。一些大型的Transformer模型会在NLP任务上投入大量资源并产生非常好的结果，但是对数十个GPU的训练和昂贵的部署成本使这些模型在现实世界中的LSTF问题上难以承受。自注意力机制和Transformer框架的效率成为将它们应用于LSTF问题的瓶颈。因此，在本文中，我们试图回答以下问题：可以将Transformer模型提高到计算，内存和体系结构高效，且保持较高的预测能力吗？
　　Vanilla Transformer在解决LSTF时有三个明显的局限性：

自注意力的二次计算。自注意力机制的原子操作，即规范的点积，导致每层时间复杂度和内存使用量为 $\mathcal O(L^2)$ 。
长输入堆叠层中的内存瓶颈。编码器/解码器 $J$ 层的堆叠使总内存使用量为 $\mathcal O(J·L^2)$ ，这限制了在接收长序列输入时的模型可伸缩性。
预测长输出的速度瓶颈。Vanilla Transformer的动态解码使逐步推理的速度与基于RNN的模型一样慢，如图（1c）所示。

有一些先前的工作可以提高自注意力的效率。Sparse Transformer，LogSparse Transformer和Longformer均使用启发式方法来解决局限1并将自注意力机制的复杂性降低为 $\mathcal O(L~log~L)$ ，其效率增益有限。Reformer也通过局部敏感的哈希自注意力来实现 $\mathcal O(L~log~L)$ ，但它仅适用于极长的序列。最近，Linformer声称可达到线性复杂度为 $\mathcal O(L)$ ，但无法为实际应用中的长序列输入固定项目矩阵，这可能会造成将复杂度降低为 $\mathcal O(L^2)$ 的风险。Transformer-XL和Compressive Transformer使用辅助隐藏状态来捕获远程依赖关系，这可能会放大限制1并不利于打破效率瓶颈。所有工作主要集中在限制1上，而限制2＆3仍然存在于LSTF问题中。为了提高预测能力，我们将解决所有这些问题，并在提出的Informer中实现超出效率的改进。
　　为此，我们的工作明确地深入研究了上述三个问题。我们研究了自注意力机制中的稀疏性，改进了网络组件，并进行了广泛的实验。本文的贡献总结如下：

我们提出Informer成功地增强LSTF问题中的预测能力，从而验证类Transformer的模型的潜在价值，以捕获长时间序列输出和输入之间的各个远程依赖性。
我们提出了ProbSparse自注意力机制来有效地替换常规的自注意力，并实现 $\mathcal O(L~log~L)$ 时间复杂度和 $\mathcal O(L~log~L)$ 内存使用。
我们提出了自注意力蒸馏操作来控制 $J$ 个堆叠层中的注意分数，并将总空间复杂度急剧降低为 $\mathcal O((2-\epsilon)L~log~L)$ 。
我们提出使用“生成样式解码器”来获取长序列输出，而只需要一个向前的步骤，同时避免在推理阶段累积误差的扩散。

2.预备知识

我们首先提供问题的定义。在具有固定大小窗口的滑动预测设置下，我们在时刻 $t$ 的输入是 $\mathcal X_t=\{x^t_1,...,x^t_{L_x} | x^t_i∈\mathbb R^{d_x}\}$ ，输出是预测相应的序列 $\mathcal Y^t=\{y^t_1,...,y^t_{L_y} | y^t_i∈\mathbb R^{d_y}\}$ 。LSTF问题鼓励输出的长度 $L_y$ 比以前的工作更长，并且特征维度不限于单变量情况（ $d_y≥1$ ）。
　　（1）编解码器结构
　　最近设计了许多流行的模型以将输入表示 $\mathcal X^t$ 编码为隐藏状态表示 $\mathcal H^t$ ，并根据 $\mathcal H^t=\{h^t_1,...,h^t_{L_h}\}$ 将输出解码为 $\mathcal Y^t$ 。推理过程涉及名为“动态解码”的分步过程，其中解码器根据先前状态 $h^t_k$ 计算新的隐藏状态 $h^t_{k+1}$ ，然后根据第 $k$ 步的其他必要输出预测出第 $(k + 1)$ 个序列 $y^t_{k+1}$ 。
　　（2）输入表示
　　给出了统一的输入表示形式，以增强时间序列输入的全局位置上下文和局部时间上下文。为避免繁琐的描述，我们将详细信息放在附录B中。

3.方法

在这里插入图片描述
　　现有的时间序列预测方法可以大致分为两类（详见附录A）。传统时间序列模型是时间序列预测的可靠工具，深度学习技术主要通过使用RNN及其变体来开发编码器-解码器预测框架。我们提出的Informer拥有针对LSTF问题的编码器-解码器体系结构。有关概述，请参见图（2）。有关详细信息，请参见以下各节。

3.1 高效self-attention机制

(Vaswani et al. 2017) 中提出的常规自注意力是在接收元组输入 (query, key, value) 时定义的，并按 $\mathcal A(\textbf Q,\textbf K,\textbf V)=Softmax(\frac{\textbf Q\textbf K^T}{\sqrt d})\textbf V$ 执行缩放点积，其中 $\textbf Q∈\mathbb R^{L_Q×d},\textbf K∈\mathbb R^{L_K×d},\textbf V∈\mathbb R^{L_V×d}$ ， $d$ 为输入维度。为了进一步讨论自注意力机制，令 $\textbf q_i,\textbf k_i,\textbf v_i$ 分别代表 $\textbf Q,\textbf K,\textbf V$ 中的第 $i$ 行。按照 (Tsai et al. 2019) 中的表述，第 $i$ 个query的注意力定义为概率形式的核平滑器：
$\mathcal A(\textbf q_i,\textbf K,\textbf V)=\sum_j\frac{k(\textbf q_i,\textbf k_j)}{\sum_lk(\textbf q_i,\textbf k_l)}\textbf v_j=\mathbb E_{p(\textbf k_j|\textbf q_i)}[\textbf v_j],\tag{1}$
其中 $p(\textbf k_j |\textbf q_i)=\frac{k(\textbf q_i,\textbf k_j)}{\sum_lk(\textbf q_i,\textbf k_l)}$ 和 $k(\textbf q_i,\textbf k_j)$ 选择非对称指数核 $exp(\frac{\textbf q_i\textbf k_j^T}{\sqrt d})$ 。自注意力组合这些值并基于计算概率 $p(\textbf k_j|\textbf q_i)$ 获取输出。它需要二次乘积运算和 $\mathcal O(L_QL_K)$ 内存使用，这是增强预测能力的主要缺点。
　　先前的一些尝试表明，自注意力的概率分布具有潜在的稀疏性，并且他们在所有 $p(\textbf k_j|\textbf q_i)$ 上设计了一些“选择性”计数策略，而不会显着影响性能。Sparse Transformer结合了行输出和列输入，其中稀疏来自于分离的空间相关性。LogSparse Transformer注意到自注意力的周期性模式，并以指数步长迫使每个单元格参与到其前一个单元格。Longformer将前两个工作扩展为更复杂的稀疏配置。但是，他们仅限于采用启发式方法进行理论分析，并使用相同的策略来解决每个多头自我注意的问题，从而缩小了其进一步的改进范围。
　　为了激发我们的方法，我们首先对典型的自注意力的学习注意模式进行定性评估。“稀疏”的自注意力得分形成了长尾分布（有关详细信息，请参见附录C），即，一些点积对引起了极大的注意力分数，而其他对则可以忽略。然后，下一个问题是如何区分它们？
　　（1）Query Sparsity Measurement
　　根据等式（1），第 $i$ 个query对所有keys的注意力定义为概率 $p(\textbf k_j|\textbf q_i)$ ，输出是values $\textbf v$ 的组合。主导点积对鼓励了相应query的注意力分布远离均匀分布。如果 $p(\textbf k_j|\textbf q_i)$ 接近均匀分布 $q(\textbf k_j|\textbf q_i)=\frac{1}{L_K}$ ，则自注意力变为values $\textbf V$ 的离散总和，并且对于残差输入是多余的。自然地，分布p和q之间的“相似性”可用于区分“重要的”queries。我们通过Kullback-Leibler散度 $KL(q||p)=ln\sum^{L_K}_{l=1}e^{\textbf q_i\textbf k^T_l/\sqrt d}-\frac{1}{L_K}\sum^{L_K}_{j=1}\textbf q_i\textbf k^T_j/\sqrt d-lnL_K$ 来测量“相似度”。删除常数后，我们将第i个query的稀疏度定义为：
$M(\textbf q_i,\textbf K)=ln\sum^{L_K}_{l=1}e^{\frac{\textbf q_i\textbf k^T_l}{\sqrt d}}-\frac{1}{L_K}\sum^{L_K}_{j=1}\frac{\textbf q_i\textbf k^T_j}{\sqrt d},\tag{2}$
其中，第一项是 $q_i$ 在所有keys上的Log-Sum-Exp (LSE) ，第二项是它们上的算术平均值。如果第 $i$ 个query获得较大的 $M(\textbf q_i,\textbf K)$ ，则其注意力概率 $p$ 更加“多样化”，并且有很大的机会将主导点积对包含在长尾自注意力分布的头字段中。
　　（2）ProbSparse Self-attention
　　根据所提出的度量，通过允许每个key仅参与到前 $u$ 个主导queries，我们具有了ProbSparse Self-attention：
$\mathcal A(\textbf Q,\textbf K,\textbf V)=Softmax(\frac{\overline{\textbf Q}\textbf K^T}{\sqrt d})\textbf V,\tag{3}$
其中 $\overline{\textbf Q}$ 是与 $\textbf q$ 大小相同的稀疏矩阵，并且仅包含稀疏度 $M(\textbf q,\textbf K)$ 下的Top- $u$ queries。在常数采样因子 $c$ 的控制下，我们设置 $u=c·ln~L_Q$ ，这使得ProbSparse自注意力仅需要为每个query-key查找计算 $\mathcal O(ln~L_Q)$ 点积，并且每层的内存使用量保持 $\mathcal O(L_K~ln~L_Q)$ 。
　　但是，遍历所有queries的度量 $M(\textbf q_i,\textbf K)$ 都需要计算每个点乘积对，即平方 $\mathcal O(L_QL_K)$ ，并且LSE操作存在潜在的数值稳定性问题。因此，我们提出了一种对queries稀疏性度量的近似方法。
　　（3）引理1
　　对于每个query $\textbf q_i∈\mathbb R^d$ 和keys集和 $\textbf K$ 中的 $\textbf k_j∈\mathbb R^d$ ，我们的边界为 $ln~L_K≤M(\textbf q_i,\textbf K)≤max_j\{\frac{\textbf q_i\textbf k^T_j}{\sqrt d}\}−\frac{1}{L_K}\sum^{L_K}_{j=1}\{\frac{\textbf q_i\textbf k^T_j}{\sqrt d}\}+ln~L_K$ 。当 $\textbf q_i∈\textbf K$ 时，它也成立。
　　根据引理1（证明在附录D.1中给出），我们提出最大均值测量为：
$\overline{M}(\textbf q_i,\textbf K)=max_j\{\frac{\textbf q_i\textbf k^T_j}{\sqrt d}\}−\frac{1}{L_K}\sum^{L_K}_{j=1}\{\frac{\textbf q_i\textbf k^T_j}{\sqrt d}\}.\tag{4}$
　　Top-u的顺序在命题1的边界松弛中成立（请参阅附录D.2中的证明）。在长尾分布下，我们只需要随机采样 $U=L_Q~ln~L_K$ 个点积对来计算 $\overline M(\textbf q_i,\textbf K)$ ，即用零填充其他对。我们从它们中选择稀疏 $T o p - u$ 作为 $\overline \textbf Q$ 。 $\overline M(\textbf q_i,\textbf K)$ 中的max运算符对零值不敏感，并且数值稳定。在实践中，queries和keys的输入长度通常是相等的，即 $L_Q=L_K=L$ ，这样总的ProbSparse自注意力时间复杂度和空间复杂度为 $\mathcal O(L~ln~L)$ 。
　　（4）命题1
　　假设 $\textbf k_j\sim \mathcal N(µ,Σ)$ ，令 $\textbf q\textbf k_i$ 表示集合 $\{(\textbf q_i\textbf k^T_j)/\sqrt d|j=1,...,L_K\}$ ，那么 $∀Mm=max_i~M(\textbf q_i,\textbf K)$ ，存在 $κ > 0$ ，使得：在区间 $∀\textbf q_1,\textbf q_2∈\{\textbf q | M(\textbf q,\textbf K)∈[M_m,M_{m}-κ)\}$ 中，如果 $\overline M(\textbf q_1,\textbf K)>\overline M(\textbf q_2,\textbf K)$ 且 $Var(\textbf q\textbf k_1)>Var(\textbf q\textbf k_2)$ ，则很有可能 $M(\textbf q_1,\textbf K)>M(\textbf q_2,\textbf K)$ 。为简化起见，在证明中给出了概率的估计。

3.2 编码器：允许在内存使用限制下处理更长的输入序列

在这里插入图片描述
　　编码器被设计用于提取长序列输入的长期相关性。在输入表示之后，第 $t$ 时刻序列输入 $\mathcal X^t$ 已变换为矩阵 $\textbf X^t_{feed\_en}∈\mathbb R^{L_x×d_{model}}$ 。为了清楚起见，我们在图（3）中给出了编码器的草图。
　　（1）Self-attention Distilling
　　作为ProbSparse自注意力机制的自然结果，编码器的特征图具有值 $\textbf V$ 的冗余组合。我们使用蒸馏操为主要特征赋予特权，并在下一层制作聚焦的自注意力特征图。看到图（3）中Attention块的n头权重矩阵（重叠的红色正方形），它会急剧地修剪输入在时间上的维度。受空洞卷积的启发，我们从第 $j$ 层到第 $(j + 1)$ 层的“蒸馏”过程如下，
$\textbf X^t_{j+1}=MaxPool(ELU(Conv1d([\textbf X^t_j]_{AB}))),\tag{5}$
其中 $_{AB}$ 包含多头ProbSparse自注意力和注意力块中的基本操作，具有 $E L U (\cdot)$ 激活函数的 $C o n v 1 d (\cdot)$ 在时间维度上执行一维卷积滤波器（核宽度=3）。我们添加了一个最大步长为2的最大池化层，并在堆叠一层后将 $\textbf X^t$ 下采样到其长度的一半，这将整个内存使用量减少为 $\mathcal O((2-\epsilon)L~log~L)$ ，其中\epsilon为一个小数。为了增强蒸馏操作的鲁棒性，我们将主栈的副本复制了一半，并通过一次丢弃一层来逐渐减少自注意力蒸馏层的数量，如图（3）中的金字塔所示，以使它们的输出尺寸对齐。因此，我们将所有堆栈的输出连接起来，从而得到最终编码器的隐藏表示。

3.3 解码器：通过一个正向过程生成长序列输出

我们使用如图（2）所示的标准的解码器结构，它由2个相同的多头注意力层的堆栈组成。但是，在长时间预测中，采用了生成推理来缓解速度瓶颈。我们向解码器提供以下向量：
$\textbf X^t_{feed\_de}=Concat(\textbf X^t_{token},\textbf X^t_0)\in \mathbb R^{(L_{token}+L_y)\times d_{model}},\tag{6}$
其中 $\textbf X^t_{token}∈\mathbb R^{L_{token}×d_{model}}$ 是起始字符， $\textbf X^t_0∈\mathbb R^{L_y×d_{model}}$ 是目标序列的占位符（将标量设置为0）。通过将被屏蔽的点积设置为 $- \infty$ ，从而在ProbSparse自注意力计算中应用了屏蔽的多头注意力。它可以防止每个位置都参与到下一位置，从而避免了自回归。一个完全连接的层将获取最终输出，其输出维度 $d_y$ 取决于我们执行的是单变量预测还是多变量预测。
　　（1）Generative Inference
　　在NLP的“动态解码”中，开始字符是一种有效的技术，我们将其扩展为一种生成方式。我们没有选择特定的字符作为开始，而是在输入序列中采样了 $L_{token}$ 长序列，该序列是输出序列之前的较早切片。以图2（b）中预测168个点为例（7天温度预测），我们将目标序列之前的已知5天作为“ start-token”，并将 $\textbf X_{feed\_de}=\{\textbf X_{5d},\textbf X_0\}$ 馈入生成式推理解码器。 $\textbf X_0$ 包含目标序列的时间戳，即目标周的上下文。请注意，我们提出的解码器通过一种前向过程预测所有输出，并且摆脱了琐碎的编码器-解码器体系结构中耗时的“动态解码”方法。计算效率部分提供了详细的性能比较。
　　（2）Loss function
　　我们选择用于目标序列预测的MSE损失函数，并且损失会在整个模型中从解码器的输出传播回去。

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting翻译

摘要