卷积神经网络中的自注意力机制(Self-Attention Mechanism)

卷积神经网络中的自注意力机制(Self-Attention Mechanism)

Self-Attention Mechanism in Convolutional Neural Networks.

卷积神经网络中的自注意力(Self-Attention)机制表现为非局部滤波(non-local filtering)操作,其实现过程与Seq2Seq模型的自注意力机制类似。

标准的卷积层是一种局部滤波操作,其输出特征上的任意位置是由对应输入特征的一个邻域构造的,只能捕捉局部特征之间的关系。而自注意力机制通过计算任意两个位置之间的关系直接捕捉远程依赖,而不用局限于相邻点,相当于构造了一个和特征图尺寸一样大的卷积核,从而可以捕捉更多信息。

在卷积网络的自注意力机制中,首先构造输入特征$x$的键特征$f(x)$, 查询特征$g(x)$和值特征$h(x)$;然后应用点积注意力构造自注意力特征图:

$$ \alpha_{i} = \text{softmax}\left(f(x_i)^Tg(x_j)\right) =\frac{e^{f(x_i)^Tg(x_j)}}{\sum_j e^{f(x_i)^Tg(x_j)}} $$

在计算输出位置$i$的响应$y_i$时,考虑所有输入值特征$h(x_j)$的加权:

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131672296