[PNL] O conceito de atenção multifacetada (01)

1. Descrição

        Este artigo faz parte da série "Transformadores Implementados". Ele apresenta um mecanismo de atenção multi-head a partir do zero. A atenção é a espinha dorsal e a força por trás de Transformers, pois fornece contexto às sequências.

        No modelo Transformer, a atenção fornece contexto para cada sequência. Isso ajuda o modelo a entender como palavras diferentes se relacionam entre si para criar frases significativas. De acordo com a Wikipedia , "uma camada de atenção tem acesso a todos os estados anteriores e os compara com uma medida de correlação aprendida, fornecendo informações relevantes sobre tokens distantes.

        Para entender como funciona, é bom ter um bom conhecimento de produto escalar. Veja uma breve introdução aos produtos escalares para mais informações . Para obter mais informações sobre matrizes e tensores, consulte Uma breve introdução aos tensores .

2. O que é atenção multifacetada

        De acordo com " Atenção é tudo que você precisa ":

Observe que uma função pode ser descrita como mapeando uma consulta e um conjunto de pares chave-valor para uma saída, onde consulta, chave, valor e saída são todos vetores. A saída é calculada como uma soma ponderada de valores, onde o peso atribuído a cada valor é calculado pela função de compatibilidade da consulta com a chave correspondente.

nós vamos nosso

Supongo que te gusta

Origin blog.csdn.net/gongdiwudu/article/details/131763619
Recomendado
Clasificación