1. Descrição
Este artigo faz parte da série "Transformadores Implementados". Ele apresenta um mecanismo de atenção multi-head a partir do zero. A atenção é a espinha dorsal e a força por trás de Transformers, pois fornece contexto às sequências.
No modelo Transformer, a atenção fornece contexto para cada sequência. Isso ajuda o modelo a entender como palavras diferentes se relacionam entre si para criar frases significativas. De acordo com a Wikipedia , "uma camada de atenção tem acesso a todos os estados anteriores e os compara com uma medida de correlação aprendida, fornecendo informações relevantes sobre tokens distantes.
Para entender como funciona, é bom ter um bom conhecimento de produto escalar. Veja uma breve introdução aos produtos escalares para mais informações . Para obter mais informações sobre matrizes e tensores, consulte Uma breve introdução aos tensores .
2. O que é atenção multifacetada
De acordo com " Atenção é tudo que você precisa ":
Observe que uma função pode ser descrita como mapeando uma consulta e um conjunto de pares chave-valor para uma saída, onde consulta, chave, valor e saída são todos vetores. A saída é calculada como uma soma ponderada de valores, onde o peso atribuído a cada valor é calculado pela função de compatibilidade da consulta com a chave correspondente.
nós vamos nosso