【NLP】多头注意力概念(02)

接上文:  【NLP】多头注意力概念(01) 

五、计算注意力

        将 Q、K 和 拆分为它们的头部后,现在可以计算 和 的缩放点积。上面的等式表明,第一步是执行张量乘法。但是,必须先转置 K。

        展望未来,每个张量的seq_length形状将通过其各自的张量来识别,以确保清晰度、Q_lengthK_lengthV_length

  • Q 的形状为 (batch_size、n_heads、Q_length、d_key)

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/131763636