【论文解读】Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

文章目录

Vanilla Transformer Language Models
Segment-Level Recurrence with State Reuse
Relative Positional Encodings

Reference
1. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
2. Transformer-XL: Unleashing the Potential of Attention Models
3. Transformer-XL介绍

代码基于tensorlfow2.3实现，仓库地址：https://github.com/dwdb/transformer-xl

Transformers潜在地学习长期依赖，但受到上下文固定长度限制，当处理序列长度超过固定长度时，会出现以下问题：

训练阶段，需将输入文本分割成不同分段，不同分段独立训练，由于分段未考虑语义边界，可能造成模型缺乏上下文信息学习分段的完整表示，模型不易优化，这种现象称为上下文碎片问题；
预测阶段，每次移动一个输入单元，引入大量重复计算，预测效率低；

Transformer-XL使用两种技术： 循环分段 和 相对位置编码，克服vanilla Transformers的缺陷，并解决上下文碎片问题。使用循环分段机制，在处理当前分段时，重用之前分段的隐状态（缓存），可不是从头计算新分段的隐状态，不同分段之间不再独立，解决了上下文碎片的问题。使用相对位置编码，而非绝对位置编码，避免利用之前分段隐状态造成的时序混乱问题。

实验结果表明，Transformer-XL在学习上下文依赖上，比RNNs网络长0.8倍、比vanilla Transformers网络长4.5倍，Transformer-XL是首个在字和词级别上均优于RNNs的使用自我注意力的模型。

Vanilla Transformer Language Models

使用Transformer或者self-attention的语言模型，最核心问题是怎样把任意长、具有上下文信息的序列编码为固定长度的向量表示。有限的计算资源下，无法处理较长序列，可行地做法是将长序列分割成数个固定长度序列，各分段独立训练，忽略各分段间的语义关系，随意分割会造成上下文碎片。

Segment-Level Recurrence with State Reuse

训练阶段，缓存一定长度的之前片段的各层隐状态向量，在处理新分段时，缓存向量作为新分段的扩展上下文重用，使得模型可以学习长期依赖，以避免学习上下文碎片。

对于两个连续分段 $s_{\tau}=[x_{\tau,1},\cdots,x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1},\cdots,x_{\tau+1,L}]$ ， $s_\tau$ 在第 $n$ 层的隐状态为 $\bm h_{\tau}^n\in\R^{L\times d}$ ，其中 $d$ 是隐状态向量维度，则
$\begin{aligned} &\tilde\bm h_{\tau+1}^{n-1}=[\text{SG}(\bm h_{\tau}^{n-1})\circ\bm h_{\tau+1}^{n-1}]\\[1ex] &\bm q_{\tau+1}^n,\bm k_{\tau+1}^n,\bm v_{\tau+1}^n=\bm h_{\tau+1}^{n-1}W_q^\top,\tilde\bm h_{\tau+1}^{n-1}W_k^\top,\tilde\bm h_{\tau+1}^{n-1}W_v^\top\\[1ex] &\bm h_{\tau+1}^n=\text{Transformer-Layer}(\bm q_{\tau+1}^n,\bm k_{\tau+1}^n,\bm v_{\tau+1}^n) \end{aligned}$

式中函数 $\text{SG}(\cdot)$ 表示不计算梯度， $[\bm h_u\circ \bm h_v]$ 表示序列长度方向拼接两个隐藏状态序列。

循环分段状态重用与标准Tranformer最大的不同在于，利用当前分段的 $\bm q$ 向量，以及之前分段和当前分段的 $\bm k$ 和 $\bm v$ 向量，计算当前分段的Transformer层输出，使得当前分段输出考虑到之前分段信息（self-attention注意之前分段）。

从图二左图中可看出，在训练阶段当仅利用前一个分段信息时，两个分段的不同层的隐状态 $\bm h_{\tau+1}^n$ 和 $\bm h_{\tau}^{n-1}$ 具有依赖关系，为保持时序信息，需考虑相对位置信息，下节介绍。

循环分段机制除能够学习长期依赖、解决上下文碎片化之外，对预测的性能上也有较大提高。模型通过学习转换矩阵得到固定嵌入，而不是直接学习嵌入，使得预测阶段可以学习更长期的依赖。。此外，在当GPU内存允许条件下，也可利用之前多个分段信息。

Relative Positional Encodings

在使用之前隐状态时，如何保证连贯的位置信息？ 传统的Transformer中，使用绝对位置编码 $U\in\R^{L_{\max}\times d}$ ，其第 $i$ 行表示分段中的第 $i$ 个绝对位置的编码向量， $L_{\max}$ 表示最大编码长度，实际是直接将词向量和绝对位置编码向量按元素相加作为实际输入，各分段的处理方式相同。显然，不同分段同时参与运算时，会造成时序混乱。

避免时序混乱的思想是仅在隐状态中引入相对位置信息。位置嵌入目的是给予模型各输入点的时序线索或偏差，以决定如何收集信息，因此，可向每一层的注意力分数中注入相对时序信息，取代将位置编码直接加入初始词向量。

举例来说，对于计算查询向量 $\bm q_{\tau,i}$ 在键向量 $\bm k_{\tau,\leq i}$ 的注意力，我们不需知道 $\bm k_{\tau,j}$ 在时序中绝对位置，只需要知道其相对 $\bm q_{\tau,i}$ 的时序偏差（相对查询的位置偏差）即可，如 $i-j$ 。

因此，创建一系列相对位置编码向量 $R\in\R^{L_{\max}\times d}$ （正弦信号），其中 $R_i$ 表示两位置相对距离为 $i$ 对应的编码向量，通过在注意力分数中动态地引入相对距离，查询向量可通过相对距离的不同区分 $x_{\tau,j}$ 和 $x_{\tau+1,j}$ 。

标准Transformer使用绝对位置编码，同一分段中查询向量 $\bm q_i$ 对键向量 $\bm k_j$ 的注意力分数为
$\begin{aligned} A_{i,j}^{\text{abs}} &=W_q(E_{x_i}+U_i)\cdot W_k(E_{x_j}+U_j)\\[1ex] &=\underbrace{E_{x_i}^\top W_q^\top W_kE_{x_j}}_{(a)} +\underbrace{E_{x_i}^\top W_q^\top W_kU_j}_{(b)} +\underbrace{U_i^\top W_q^\top W_kE_{x_j}}_{(c)} +\underbrace{U_i^\top W_q^\top W_kU_j}_{(d)} \end{aligned}$

使用相对位置编码，则同一分段中查询向量 $\bm q_i$ 对键向量 $\bm k_j$ 的注意力分数为
$\begin{aligned} A_{i,j}^{\text{rel}} &=\underbrace{E_{x_i}^\top W_q^\top W_{k,E}E_{x_j}}_{(a)} +\underbrace{E_{x_i}^\top W_q^\top W_{k,R}R_{i-j}}_{(b)} +\underbrace{u^\top W_{k,E}E_{x_j}}_{(c)} +\underbrace{v^\top W_{k,R}R_{i-j}}_{(d)} \end{aligned}$
相对位置编码的改动在于：

将用于计算键向量的绝对位置编码 $U_j$ ，替换为不需要学习的正弦的相对位置编码 $R_{i-j}$ ，使得扩展上下文长度在预测阶段可大于训练阶段；
引入参数 $u$ 取代 $(c)$ 项中的 $W_qU_i$ ，此时 $(c)$ 项仅与内容有关。为使序列中任意位置对其它任意位置的注意力偏差相同，引入参数 $v$ 取代 $(d)$ 项中的 $W_qU_i$ ，此时 $(d)$ 项仅与相对位置有关；
使用权重矩阵 $W_{k,E}$ 生成基于内容的键向量（右乘词向量）， $W_{k,R}$ 生成基于位置的键向量（右乘相对位置向量）；
四项意义： $(a)$ 项为内容表示， $(b)$ 项为依赖位置的内容偏差， $(c)$ 项为全局内容偏差， $(d)$ 项为全局位置偏差；

Transformer-XL的整体架构表示为
$\begin{aligned} \tilde\bm h_{\tau}^{n-1}&=[\text{SG}(\bm m_{\tau}^{n-1})\circ\bm h_{\tau}^{n-1}]\\[1ex] \bm q_{\tau}^n,\bm k_{\tau}^n,\bm v_{\tau}^n&=\bm h_{\tau}^{n-1}{W_q^n}^\top,\tilde\bm h_{\tau}^{n-1}{W_{k,E}^n}^\top,\tilde\bm h_{\tau}^{n-1}{W_v^n}^\top\\[1ex] A_{\tau,i,j}^n&={\bm q_{\tau,i}^n}^\top \bm k_{\tau,j}^n+{\bm q_{\tau,i}^n}^\top W_{k,R}^nR_{i-j}+u^\top \bm k_{\tau,j}+v^\top W_{k,R}^nR_{i-j}\\[1ex] \bm a_{\tau}^n&=\text{Masked-Softmax}(A_{\tau}^n)\bm v_{\tau}^n\\[1ex] \bm o_\tau^n&=\text{LayerNorm}(\text{Linear}(\bm a_\tau^n)+\bm h_\tau^{n-1})\\[1ex] \bm h_\tau^n&=\text{Positionwise-Feed-Forward}(\bm o_\tau^n) \end{aligned}$
式中，计算 $A_{\tau}^n$ ，意味着需对所有位置对 $(i,j)$ 计算 $W_{k,R}^nR_{i-j}$ ，时间复杂度 $O(n^2)$ ，优化后可降至 $O(n)$ 。