Transformer-Based Acoustic Modeling for Hybrid Speech Recognition

Transformer-Based Acoustic Modeling for Hybrid Speech Recognition

1.论文摘要

对transformer based 的混合语音识别模型在不同位置编码方法、iterated loss条件下模型的最优配置、有限上下文条件下流式应用进行了讨论。在结合4-ngram 语言模型rescore, 获得了19%-26%的效果提升。

2. 背景介绍

  • hybrid architecture
    将输入序列x1,…,xt经过声学encoder 编码为高级的向量表示z1,…,zt,然后根据这些高阶编码得到HMM 中的每一帧对于不同音素的后验状态转移矩阵,并可在这一过程中结合词表和一些语音模型。相对于端到端模型,可能整个过程可能是分开训练,但是根据作者的经验,在实际问题中这种框架的效果较好,并且可以结合一些外部的知识作为补充(personalized lexicon).

  • Self-Attention and Multi-Head Attention
    attention weights 的计算方法,对于多头注意力采用拼接的方式。为了流式的信号处理,对于右侧上下文信息只做部分attention, 其他被mask 负无穷。
    在这里插入图片描述在这里插入图片描述

  • Transformer 框架

在MHA 和FN 这两sublayer 中都使用了residual connection, 并且layer normalization 在MHA与FN之前并采用了三次, 激活函数采用glue.
在这里插入图片描述

  • 位置编码
    Sinusoid positional embedding(绝对位置编码)
    Frame stacking(将上下文多个向量叠加到一起),文中采用当前帧和后面8帧的叠加,stride 2的采样作为模型输入
    convolutional embedding(与frame stacking 比较类似,也是相对位置编码, 采用两个vgg block, stride interval 20,感受野80ms left-context and 80ms right context与frame stacking 一致。

  • Training Deep Transformers
    采用iterated loss, 其中一些中间层的transformer Layers 也用来计算辅助的交叉熵损失,通过差值加入到最终的loss function,并且其中计算softmax 的线性层参数在训练后被discard.

3.实验结果

在这里插入图片描述
相对位置编码较绝对位置以及不位置编码的结果更好,其中采用卷积的效果最好。
在这里插入图片描述
在保证模型参数大致相当的情况下, 不管位置编码采用Fs 还是卷积,transormer结构始终保持 2–4% on test-clean and 7–11% on test-other 的更好效果。
在这里插入图片描述
采用iterated loss 使得训练更深的网络成为可能,利用6/12/18层的输出作为辅助ceLoss, 获得了 7% and 13% WER reduction on test-clean and test-other的提升。
在这里插入图片描述
最优配置加语言模型(4-gram 和 NNLM)取得了state of the art 的效果, wer 2.26/4.85/
在这里插入图片描述
限制attention时右侧context 的数量,发现RC 保持较大数量时,效果也较好。但是即使rc 相对较小时,transormer 最后几层attend 到的数量也很大,因此流式处理依然较为困难。

猜你喜欢

转载自blog.csdn.net/pitaojun/article/details/108560681