TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

1.论文摘要

(1)使用VGGNet 的因果卷积结合位置信息来对输入进行下采样来保证推理的效率。(2)使用截断自注意力机制来保证transormer的流式处理从而减少计算复杂度。取得了在LibriSPeech test-clean 6.37%的字错率,在test other上15.3%, 计算复杂度为O(T), T为输入序列长度。

2.模型结构

  • 使用因果卷积的上下文建模
    在这里插入图片描述
    对于因果卷积,NxK 的kernel 卷积cover的位置为 X ( i − N + 1 , j − k − 1 2 ) X(i-N+1,j-\frac{k-1}2) X(iN+1,j2k1) to X ( i , j + k − 1 2 ) X(i,j+\frac{k-1}2) X(i,j+2k1)(在代码中,只对序列的起始位置处进行padding), 避免了卷积时后面的内容看到前面的内容。
  • 截断的self-attention
    在这里插入图片描述
    unlimited self attention 的缺点:必须知道整个输入才能预测label, 无法处理流式数据;计算复杂度为O(T^2).
    Truncated self attention: output ht 只依赖 ( x t − L . . . x t + R ) (x_{t-L}...x_{t+R}) (xtL...xt+R), 计算复杂度变为O(T) 但是是去部分模型效果。

3.实验结果

实验配置:encoder(1)BLSTM 4x640 ; (2)LSTM 5x1024: (3) Transformer 12x: 2VGGNets , 12 层transformer encoder layers
在这里插入图片描述
BLSTM 作为encoder 强于LSTM,VGG transfomer 又优于BLSTM, 但两者均为非流式的计算手段。decoder 端, LSTM效果好于Transformer 且计算效率更高。
在这里插入图片描述
对于截断attention长度的对比实验。其中,R长度对于识别的准确率影响较大,当encoder中步数L inf, 随着R的增大,准确率逐渐恢复,并在R=8 时基本和unlimited 情况差不多。对于L,当取(L,R)=(16,4)组合时,就已经超过了LSTM/BLSTM的基线了,(L,R)=(32,4)时,仅损失了4.7%的识别精度就实现了streamable 和计算复杂度O(T)。

猜你喜欢

转载自blog.csdn.net/pitaojun/article/details/108310203