如何降低Transformer的计算复杂度

如何降低Transformer的计算复杂度

Efficient Transformers.

本文目录:

  1. Transformer的计算复杂度
  2. 改进自注意力机制

1. Transformer的计算复杂度

(1) Transformer的典型结构

典型的Transformer结构如上图所示,其整体计算量来源于模型中的自注意力层和全连接层两部分,本文主要讨论自注意力层的改进。

(2) 自注意力机制的运算

由于计算机中乘法的计算速度比加法慢,因此在衡量计算复杂度时主要考虑乘法。对于矩阵乘法$(a, b)\times(b,c)$,计算复杂度为$O(abc)$。

① 计算查询矩阵Q,键矩阵K,值矩阵V

对于经过词嵌入并加入位置编码的输入序列$$X=[x_1,...,x_N] \in \Bbb{R}^{D_x×N}$$,将其通过仿射变换映射为查询矩阵$Q$,键矩阵$K$,值矩阵$V$:

$$ Q = W^qX

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131672259