上記の続き: 【NLP】多頭注意の概念(01)
5. 注意力の計算
Q、 K 、および V を それぞれの頭に 分割した 後、 Q と K のスケーリングされたドット積を計算できるようになります。上の方程式は、最初のステップがテンソル乗算を実行することであることを示しています。ただし、最初にK を転置する必要があります。
今後、各テンソルのseq_length形状は、明確にするために、それぞれのテンソルQ_length、K_length、またはV_lengthによって識別されます。
- Qの形状は (batch_size、n_heads、Q_length、d_key) です