self-attention与Transformer补充

而对于输出 $b_1 - b_4$ ，self-attention会考虑每个输入 $a_1 - a_4$
具体的方式是：寻找 $a_1 - a_4$ 之间的相关性：
相关性对计算方式如下

扫描二维码关注公众号，回复： 13362763 查看本文章
- 任意两个输入 $a_i \quad a_j$ ，对输出 $b_i$ 会先取得 $a_i$ 的q矩阵和 $a_j$ 的k矩阵（ $q=W_q*a_i$ 和 $k=W_k * a_j$ ，其中W为训练出来的权重参数（就类似于CNN中Kernel中的参数一样））
  - 如果使用Dot- product方法，则对qk进行点积即可
  - 如果是additive方法，则计算 $W * t a n h (q + k)$ ，其中tanh作用是将范围限制在[-1,1]之间
根据这个方法我们可以得到（ $a_1$ 为例）关于a1的所有相关性的值，再对所有值做一个softmax就可以得到这些值的score
接下来就可以计算b的值： $b^1= \sum_{i} a_{1,i}^{'}v^i$ 其中 $v^i$ = $W^v*a_i$
有一点需要注意的是： $W^q \quad W^k \quad W^v$ 三个矩阵是所有输入值共享的，一个self-attention结构共享一个
因此，根据上面的式子，我们可以将输入的合并成一个矩阵计算，就可以实现一次计算得到所有的相关性矩阵A（ $A^{'}$ 是做了个softmax），以及输出矩阵O
于是从外部看就有了以下的形式，也就符合这个公式： $softmax(\frac{QK^T}{\sqrt{d_k}})V$ ，公式中的矩阵顺序颠倒，但不影响理解，其中除以 $\sqrt d_k$ 是为了保证方差为1，有利于梯度下降

其实就可以理解为同一套输入进入多套并行的self-attention模块里面去，对最后的结果进行cancat一下即可
- $MultiHead(Q,K,V) = Concat(head_1,....,head_h)W^o$
- $head_i = Attention(QW_{i}^Q,KW_{i}^K,VW_{i}^V)$

首先对于encoder部分：
- 我们对输入编码后加上位置信息编码（Positional Encoding）后就进入Multi- Head Attention（参考上面的理解），之后做了一个Add&NORM的操作，其中Add代表的是残差，参考RenNet中残差的作用，是防止网络退化的；而Norm则是做了这么一个操作（归一化，但不用考了batch，因此比Batch Norm来的简单）
- 而在往下的Feed Forward实际上可以为FC层（当然别的也可以），然后再来一组残差+归一化，就是整个encoder的结构了

对于decoder，首先对输出考虑Masked版本的多头注意力机制，其实就是在计算相关性的时候可以考虑上文（之前的）但不能考虑下文（之后的），然后再与encoder的输出汇合，再做一组多头注意力机制的前推，残差归一化+FC，就完成了decoder的计算
这个跟encoder十分类似