Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

论文标题：Synthesizer: Rethinking Self-Attention in Transformer Models
论文链接：https://arxiv.org/abs/2005.00743
前言：自注意力机制算是解释性比较强的模型之一，它通过直接把序列两两比较（代价是计算量变为 O(n²)，当然由于是纯矩阵运算，这个计算量相当也不是很严重），能够一步到位捕捉到全局的联系。相比之下，RNN 需要一步步递推才能捕捉到，而 CNN 则需要通过层叠来扩大感受野，这是 Self Attention 层的明显优势。
在这里插入图片描述
核心发问：自注意力到底是如何生效的？这种“token”对“token”的注意力是必须的吗？

对于矩阵B，本质上来说它就是 X 里边两两向量的内积组合，所以称为“token对token”的Attention。
解决方案：通过其它方式生成矩阵B（n×n），不用保持“token对token”的形式。
在这里插入图片描述

Dense形式
B需要n×n大小，而X是n×d，所以只需要通过简单的线性变换矩阵d×n即可生成n×n大小：
Random形式
B随机初始化，然后可以随训练更新或者不更新，R（n×n）：
低秩分解
上面两种新形式，往往会面对着参数过多的问题，所以很自然地就想到通过低秩分解来降低参数量。对于Dense和Random，原论文也提出并验证了对应的低秩分解形式，分别称为Factorized Dense和Factorized Random。
Factorized Dense 通过Dense的方式，生成两个n×a, n×b的矩阵B1和B2，其中ab=n，然后将B1重复b次，B2重复a次；最后将他们两逐位相乘。

Factorized Random 将原来R（n×n）分成两个n×k的矩阵相乘。
混合模式
连同标准的自注意力方式，目前有5种不同的生成矩阵B的方案，它们可以混合起来共同生成B，系数是可学习参数，相加为1：

实验结果
机器翻译

表格结果显示，除了固定的Random外，所有的自注意力形式表现基本上都差不多，而且就算是固定的Random也有看得过去的效果，这表明以往对自注意力的认知和解释都太过片面，并没有揭示自注意力生效的真正原因。
摘要对话

在自动摘要这个任务上，标准注意力效果比较好；但是对话生成这个任务上，结果则反过来：标准的自注意力是最差的，Dense（D）和Random（R）是最好的，而当Dense和Random混合了标准的自注意力后（即 D+V 和 R+V），效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势，而几个Synthesizer看起来是标准注意力的“退化”，但事实上它们互不从属，各有优势。
预训练+微调

从表中结果可以看出，相比标准自注意力，Dense和Random就显得逊色了，这表明Dense和Random也许会在单一任务上表现得比较好，而迁移能力则比较弱。但是不能否定的是，像Random这样的自注意力，由于直接省去了QK^T这个矩阵运算，因此计算效率会有明显提升，因此如果能解决迁移性问题，Transformer模型家族将可能会迎来大换血。

参考文献：https://zhuanlan.zhihu.com/p/144703680?utm_source=wechat_session&utm_medium=social&utm_oi=865886643385688064

Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

猜你喜欢