Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

论文标题:Synthesizer: Rethinking Self-Attention in Transformer Models
论文链接https://arxiv.org/abs/2005.00743
前言:自注意力机制算是解释性比较强的模型之一,它通过直接把序列两两比较(代价是计算量变为 O(n2),当然由于是纯矩阵运算,这个计算量相当也不是很严重),能够一步到位捕捉到全局的联系。相比之下,RNN 需要一步步递推才能捕捉到,而 CNN 则需要通过层叠来扩大感受野,这是 Self Attention 层的明显优势。
在这里插入图片描述
核心发问:自注意力到底是如何生效的?这种“token”对“token”的注意力是必须的吗?
在这里插入图片描述
对于矩阵B,本质上来说它就是 X 里边两两向量的内积组合,所以称为“token对token”的Attention。
解决方案:通过其它方式生成矩阵B(n×n),不用保持“token对token”的形式。
在这里插入图片描述

  • Dense形式
    B需要n×n大小,而X是n×d,所以只需要通过简单的线性变换矩阵d×n即可生成n×n大小:
    在这里插入图片描述
  • Random形式
    B随机初始化,然后可以随训练更新或者不更新,R(n×n):
    在这里插入图片描述
  • 低秩分解
    上面两种新形式,往往会面对着参数过多的问题,所以很自然地就想到通过低秩分解来降低参数量。对于Dense和Random,原论文也提出并验证了对应的低秩分解形式,分别称为Factorized Dense和Factorized Random。
    Factorized Dense 通过Dense的方式,生成两个n×a, n×b的矩阵B1和B2,其中ab=n,然后将B1重复b次,B2重复a次;最后将他们两逐位相乘。
    在这里插入图片描述
    Factorized Random 将原来R(n×n)分成两个n×k的矩阵相乘。
    在这里插入图片描述
  • 混合模式
    连同标准的自注意力方式,目前有5种不同的生成矩阵B的方案,它们可以混合起来共同生成B,系数是可学习参数,相加为1:
    在这里插入图片描述
    实验结果
    机器翻译
    在这里插入图片描述
    表格结果显示,除了固定的Random外,所有的自注意力形式表现基本上都差不多,而且就算是固定的Random也有看得过去的效果,这表明以往对自注意力的认知和解释都太过片面并没有揭示自注意力生效的真正原因
    摘要对话
    在这里插入图片描述
    自动摘要这个任务上,标准注意力效果比较好;但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势
    预训练+微调
    在这里插入图片描述
    从表中结果可以看出,相比标准自注意力,Dense和Random就显得逊色了,这表明Dense和Random也许会在单一任务上表现得比较好,而迁移能力则比较弱。但是不能否定的是,像Random这样的自注意力,由于直接省去了QKT这个矩阵运算,因此计算效率会有明显提升,因此如果能解决迁移性问题,Transformer模型家族将可能会迎来大换血。

参考文献:https://zhuanlan.zhihu.com/p/144703680?utm_source=wechat_session&utm_medium=social&utm_oi=865886643385688064

猜你喜欢

转载自blog.csdn.net/qq_40263477/article/details/106537013
今日推荐