像 GPT-3 这样的 Transformer 在语言建模和文本生成方面展示了惊人的能力。但一个限制仍然存在——它们的二次计算复杂性使得处理极长的序列变得不可行。随着 LONGNET 的推出，这种情况正在发生改变。

在一篇新论文中，微软研究院的研究人员提出了 LONGNET，一种可以扩展到超过 10 亿个代币的变压器架构。考虑到当今最先进的模型最多可处理 100,000 个令牌左右的序列，这代表了一个显着的突破。

LONGNET 的工作原理

LONGNET 的关键创新是一种称为“扩张注意力”的新注意力机制。标准变压器注意力均匀地关注所有输入标记。但随着标记之间距离的增加，扩张的注意力会呈指数级分配更少的注意力。

这意味着它精确地关注本地依赖关系，同时更近似地捕获全局信息。作者证明这将复杂性降低到线性，同时仅损失远距离标记之间的对数分辨率。

LONGNET 还将序列分割成块，并在它们之间并行应用扩展注意力。这提供了平衡效率和上下文范围的灵活性。

规模大幅提升

实验证明了LONGNET的能力。在语言建模基准测试中，它的性能优于 Sparse Transformer 等基线转换器。更重要的是，它可以无缝扩展到 32,000 个甚至更多的序列。

通过跨 GPU 并行化，LONGNET 可以达到 10 亿个令牌的惊人长度，并且运行时间几乎恒定。它本质上完全消除了长度限制。与此相比，普通变压器在较长的环境下仍然与二次成本作斗争。

处理如此巨大的序列的能力开辟了全新的可能性：

将整个文本语料库视为一个序列以获取更多训练信号。
使用整个互联网作为网络规模建模的上下文。
提供巨大的内存容量来捕获更多的推理步骤。
通过大量提示实现少量学习。
它还表明变压器可能不需要根本性的重新设计来处理长序列。通过注意力扩张等优化，可以释放它们的全部力量。

当然，还需要进一步的工作来扩展模型大小并训练 LONGNET 的能力。但这是消除变压器输入束缚的关键第一步。

人工智能社区对 LONGNET 的影响议论纷纷。对于万亿代币的 Transformer 上下文，您还能想象出哪些其他创造性用途？请在评论中告诉我！