【点云深度学习】常见网络模块：transformer中的attention机制

论文原文：Attention is all you need

最近在学习网络的时候发现，许多新论文中的网络设计中仍然沿用了之前经典网络的结构。3D点云领域有一篇热度非常高的网络Deep Closet Point（DCP），其属于Frame-toFrame的结构，其中网络设计部分有提到其中的Transformer 模块：

并且在效果比较时DCP也有两个版本：V1，与V2，区别就是是否加入了Attention模块。该论文作者WangYue也是DGCNN（Dynamic Graph CNN）的作者 ,他就是受到了transformer的影响而设计这样的结构的。

将其中的Transformer 模块结构放大就是这个样子：

而Transformer 结构为：

左边的为Encoder，右边为Decoder。该模型是由谷歌在2017年提出的，最早也是用来解决NLP问题的。如下图：

我们先看简单的图：

输入为法语，输出为英语，将法语单词通过某种法式（embedding）输入到Encoder当中，再通过Decoder输出为英文单词，这是我们直观能感受到的。那么Encoder和Decoder模块是如何设计的呢：

boom，其实这两个模块是由一些列的Encoder和decoder组成的，上图结构为6个，实际上看我们的设计和需求来，但是Encoder和decoder数目需要一样。

我们将模块放大：

可以发现结构上两者都是相似的，而decoder则中间有一层Attention Layer，作用是帮助decoder注意力集中在输入的相关部分。

前面我们提到的将输入单词转化为某种形式（vector）的方法在NLP中称为Embedding算法。可以这么理解：

所以我们实际实现的内容为：

其中z为经过self-attention的结果，是softmax后的结果。具体我们后面会提到。我们来详细说一下这个self-attention部分：

该部分涉及论文中非常重要的部分：Q、K、V，当我们第一眼看到这三个字母时肯定会有些懵逼，其实三者分别代表：Query，Key，Value，即后面的操作实际上是我们在Query和Key来进行一个Match，并结合不同key对应的value值给出一个score，对于得分高的我们就分配更高的attention，这就是注意力机制。