如何降低Transformer的计算复杂度
Efficient Transformers.
本文目录:
- Transformer的计算复杂度
- 改进自注意力机制
1. Transformer的计算复杂度
(1) Transformer的典型结构
典型的Transformer结构如上图所示,其整体计算量来源于模型中的自注意力层和全连接层两部分,本文主要讨论自注意力层的改进。
(2) 自注意力机制的运算
由于计算机中乘法的计算速度比加法慢,因此在衡量计算复杂度时主要考虑乘法。对于矩阵乘法$(a, b)\times(b,c)$,计算复杂度为$O(abc)$。
① 计算查询矩阵Q,键矩阵K,值矩阵V
对于经过词嵌入并加入位置编码的输入序列$$X=[x_1,...,x_N] \in \Bbb{R}^{D_x×N}$$,将其通过仿射变换映射为查询矩阵$Q$,键矩阵$K$,值矩阵$V$:
$$ Q = W^qX