自注意力机制-李宏毅课程笔记

因为目前在看一篇论文,里面涉及了有关注意力机制的问题,因此特学习一下

试想一下,在多视角网络中可以得到不同视图下的嵌入矩阵,常规方式是将这些嵌入矩阵分别输入神经网络中得到结果,但这样做会出现一个明显的问题:各个嵌入矩阵在神经网络中的处理变得毫不相关。而按照我们的经验来讲,在多视角网络中得到的不同视图下的嵌入矩阵常常是存在关系的,为了解决这种问题,传统的做法是如下图所示将所有情况罗列出来。

这种表示方法实在是太麻烦了 

为此我们引入了注意力机制:简单来讲,就是将原本单个嵌入矩阵输入神将网络,修改成按照一定的权重混合在一起后一起输入进去。

两个嵌入矩阵的权重大小取决于二者的相关性

 

而上述计算过程规范表示,大概就是:

 

猜你喜欢

转载自blog.csdn.net/weixin_62375715/article/details/130174482