1. 加权和
X和矩阵,每一行代表一个词,用
表示,y为一向量,表示每个词的权重,shape为(n,)通过转化将y变为矩阵Y,shape为(n,1)。如何求X中每个词的加权和,如下:
其实上述不用将y转化成Y,因为矩阵可以直接与向量相乘,以上操作只是应用于attention机制中,attention时,X与y还有另外一个维度batch
2.矩阵乘法回顾
矩阵与向量的关系:n维向量是由n维矩阵中n列对应的n个基向量通过加法法则构成的。故矩阵就是基向量的集合。每一列即一个基向量
上述中,矩阵的行数和列数相同。特殊地,m×n矩阵,当m小于n时,相当于降维;当m大于n时,相当于升维。
矩阵相乘过程如下,基向量加权,即1中的加权和,只是基向量代表的是每个词