【NLP】多头注意力概念(01)

一、说明

        本文是“已实施的变压器”系列的一篇。它从零开始引入了多头注意力机制。注意力是变压器背后的支柱和力量,因为它为序列提供了上下文。

        在变压器模型中,注意力为每个序列提供上下文。这有助于模型了解不同单词如何相互关联,以创建有意义的句子。根据维基百科的描述,“注意力层可以访问所有以前的状态,并根据学习的相关性度量来权衡它们,提供有关遥远令牌的相关信息。

        要了解它是如何工作的,最好对点积有一个很好的理解。有关详细信息,请参阅点积的简单介绍。有关矩阵和张量的更多信息,请参阅张量的简单介绍

二、何为多头注意力

        根据“注意力就是你所需要的一切”:

注意函数可以描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量。输出计算为值的加权总和,其中分配给每个值的权重由查询与相应键的兼容性函数计算。

我们将我们的

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/131763619