摘要

长短期记忆循环神经网络（LSTM RNN）与隐马尔可夫模型（HMM）结合在一起，最近表现出优于其他声学模型的性能，例如用于大规模语音识别的高斯混合模型（GMM）和深层神经网络（DNN）。我们认为，使用具有LSTM RNN的多状态HMM声学模型是GMM-HMM和DNN-HMM建模的不必要方式，因为LSTM RNN能够通过连续而非分段固定的声学轨迹建模来预测输出分布。我们证明了上下文无关的全音素或三态模型的具有相等的结果，并显示了最小持续时间的建模可以改善结果。我们继续说明，在给定最小持续时间模型的情况下，上下文相关的全音素模型可以执行与上下文相关的状态一样好的操作。

1.介绍

对于大规模语音识别中的声学建模，深度神经网络（DNN）已经非常成功。最近，长短期记忆循环神经网络（LSTM RNN）表现优于最新的DNN系统。LSTM是一种循环神经网络，在循环隐藏层中包含特殊单元，称为记忆块，通常比标准RNN更容易训练。记忆块包含具有自连接的记忆单元，用于存储网络的时间状态。此外，它们还具有称为门的乘法单元，以控制信息流入记忆单元以及从记忆单元到网络其余部分的信息流。
　　DNN和LSTM都通常用作概率估计器，并且在语音识别中，估计的概率用于在隐马尔可夫模型中计算给定单词序列的某些声学数据的可能性。这是神经网络的所谓“混合”使用。通过搜索实现为有限状态自动机的单词序列的加权搜索图，可以找到最大似然单词序列。通常，针对与HMM的状态相对应的一组声学单元来估计概率。这些声学单元是根据上下文（单元前后的音素）进行聚类产生的。
　　在本文中，我们重新检查如何选择这些声学单元，并表明，只要引入一个简单的持续时间模型，就可以使用更简单的HMM模型获得可比的结果。第2节介绍了我们使用的LSTM声学模型及其训练方法。第3节描述了上下文无关（CI）模型的初始实验，第4节描述了上下文相关（CD）全音素建模。第5节将简单的最小持续时间模型添加到全音素模型中。最后一部分总结了实验并描述了未来的工作。

2.使用LSTM的声学建模

在这里插入图片描述
　　用于声学建模的DNN和LSTM RNN通常使用混合方法，其中神经网络在给定一个长度为 $T$ 的特征向量序列 $X = x_1,...,x_T$ 的情况下估计声学状态 $s_i$ 的后验概率 $p(s_i|x_1,...,x_i)$ 。隐马尔可夫模型解码器通过将单个帧的缩放后验 $p(s_i|x_1,...,x_i)/p(s_i)$ 与语言模型概率 $p(s_1,...,s_N)$ 相结合，通过搜索图找到最可能的状态序列。
　　这些混合神经网络模型使用softmax输出层，当使用交叉熵损失时，该层会收敛以估计类别后验概率。通常使用对齐的目标来训练他们，这可以通过使用任何现有模型（包括一个自举或“扁平启动”）将受监管的转录文本与声学序列进行强制对齐来获得。
　　由于与音素相关的声学特征会从头到尾发生变化，因此通常将音素划分为概率密度分别建模的多个状态。隐马尔可夫模型中的转换被限制为仅允许模型中的从左到右转换，从而有效地将声学单元划分为一组状态，必须按顺序遍历这些状态，并具有可选的重复项，每个状态都具有固定的概率分布。尽管以前的工作改变了HMM拓扑或状态数，但最近的绝大多数工作，特别是使用深度神经网络的工作，都使用图1（a）所示的三态从左到右模型。在整个工作中，我们将HMM状态与自循环一起使用，并转换到下一个状态。
　　早就知道，由于协同发音效应，语音单元的声音实现取决于其前后的音素。为了获得更大的建模能力，提出了上下文相关的单元，其中分别对不同上下文中的状态进行建模。由于存在大量可能的上下文（带有 $N$ 个音素的三音单元的 $N^2$ 上下文，导致三态HMM的 $3×N^3$ 个可能的单元），依赖于上下文的建模只能通过对相似的上下文进行聚类并对其进行相同的处理来实现，从而导致上下文相关状态绑定。第4节介绍了一种用于上下文相关状态绑定的算法。

2.1 LSTM RNN

本文中使用的LSTM网络是从我们先前的工作中采用的。我们使用两层LSTM RNN，其中每个LSTM层具有800个记忆单元和512维的降维线性投影层。LSTM网络具有1300万个参数，并且对单元输入和单元输出使用双曲正切激活函数（tanh），对输入，输出和忘记门单元使用Sigmoid激活函数。最终输出层使用softmax激活函数。
　　LSTM在每个时刻的输入都是一个25ms帧的40维log-mel滤波器组特征。由于来自未来帧的信息有助于为当前帧做出更好的决策（类似于DNN中具有正确的上下文窗口），因此我们将输出HMM状态标签延迟了5帧。
　　LSTM网络使用异步随机梯度下降（ASGD）进行交叉熵损失训练，并在不同机器上安排300个任务进行分布式训练，每个任务都使用预先随机打乱的训练发音数据的一部分。每个任务一次处理四个音频数据，使用通过时间的反向传播算法进行正向传播，然后反向传播20个连续帧。因此，每个任务都会为4×20帧的小批量计算参数进行梯度更新。LSTM和ASGD训练的更多细节可以在早期的工作中找到。

2.2 ASR系统和评估

所有网络都经过300万语音（约1700小时）数据集的交叉熵损失训练，该数据集包含匿名和手动转录的8kHz Google语音搜索和听写流量。该数据集用每10ms计算出的25ms帧的40维对数滤波器组能量特征表示。40维特征无需堆叠框架即可输入到网络。这些话语通过训练好的具有8500万个参数DNN进行强制对齐，以生成用于训练的固定标签。所有层的权重在训练之前被随机初始化。我们尝试将特定于网络体系结构及其配置的学习速率设置为导致稳定收敛的最大值。学习率最初保持恒定，然后在训练过程中呈指数下降。在整个训练中使用了少量的 $\mathcal l_2$ 正则化。
　　经过训练的模型在大型词汇语音识别系统中对22,500个人工转换的语音测试集进行了评估，并报告了词错误率（WER）。解码的第一遍中使用的语言模型是5-gram语言模型，该模型被严重修剪为2千3百万个n-gram，并具有220万个单词词汇量。在第二遍中，使用具有150亿个n-gram的5-gram语言模型对从第一遍输出的单词点阵进行重新评分。

3.使用LSTM的全音素建模

在这里插入图片描述
　　GMM和DNN中声学帧的独立处理意味着每个声学状态的分布对于该状态下的所有帧都是相同的。三态分段静态模型是一种合理，简约和有效的简化方法，这种方法难以与更为复杂的音素内声学框架的非静态模型相抗衡。我们之前对LSTM使用了相同的HMM拓扑。但是，在循环网络中，状态的每个帧的分布是不同的，取决于RNN的内部状态，因此我们认为不需要为每个音素建模三个不同的输出分布。
　　我们通过以下实验证明了这一观点。我们使用由14,000个CD状态DNN强制对齐给定的相同对齐方式训练了两个LSTM声学模型。第一个LSTM具有126个softmax输出，对应于HMM的上下文无关状态，每个音素具有3个状态（将对齐方式的CD标签映射到相应的CI状态）。在将路线映射到对应的音素之后，第二个LSTM具有42个输出状态，每个音素一个。这些模型通过简单的HMM进行解码，每个语音单元具有一个状态（分别为图1中的b和c）。实验结果显示在表1中。我们首先观察到该音素模型的性能比CI模型差。但是，通过更改声学模型的粒度，我们还更改了每个音素的状态数。这意味着每个音素必须消耗的最小帧数已从3更改为1，这本身会影响识别精度。通过用具有约束分布的三态HMM表示每个音素（图1(d)），我们可以使用简单的音素声学模型，但保留最小持续时间约束，并获得类似的WER，如表1的最后一行所示。

4.上下文相关状态的聚类树

我们注意到，虽然建模单独的CI状态而不是为每个音素建模单个状态不会带来性能提升，但上下文相关的3状态模型比上下文无关的模型准确得多。因此，我们认为上下文相关仍然很重要，因此我们建议构建上下文相关的全音素单元并训练LSTM模型以区分它们。
　　我们采用了Young等人的标准上下文相关聚类算法。用于构建上下文相关的音素模型。原始算法采用强制对齐的特征向量，将所有与特定CI状态对齐的向量合并在一起，并使用特定的语音上下文计算每个子集的足够统计量。现在，对于每个CI状态，我们通过二分类聚类构建决策树。在树的每个节点上，我们都会询问一组有关上下文的二进制语音问题。每个这样的问题都会将数据分成两部分，根据足够的统计数据，我们可以为每个分区建立一个高斯模型。通过选择导致最大似然增益的问题来扩展树。当似然性增益低于阈值时，或者当节点的观测值太少时，决策树构建终止。
　　在这里，我们以三种方式改进算法。首先，我们不是为每个CI状态使用一棵树进行聚类，而是为每个音素构建一棵树。其次，由于我们希望我们的声学状态能够对声学特征的轨迹进行建模，而不是对声学特征的分段固定周期进行建模，也不是对分配给每个音素的所有帧进行聚类，因此我们在训练中为该音素的每个样例都制作了一个代表性的特征向量组。一个简单的特征向量是通过将中心框架与三态框架对齐的每个状态（在这种情况下，对齐来自先前训练的三态CI DNN系统）进行级联而构建的。第三，遵循我们先前的工作[8] ，我们将DNN倒数第二层的激活作为用于聚类的特征表示。
　　使用了这3种修改的算法按原样应用，并产生8367个上下文相关的音素模型。为了进行比较，通过使用PLP函数对CI状态进行聚类而获得的基线模型具有13522 CD状态。不同C传感器的静态CLG FST大小大致相同。
　　通过更早地截断树，我们可以得出较小的上下文相关音素项，并研究不同音素项大小的影响，如表3所示。在整个实验中，我们使用CD-DNN模型给出的相同状态边界。由于截断的树结构的状态项是嵌套的，因此可以将简单的多对一映射应用于原始对齐标签，以使用这些较小的状态项进行训练。

4.1 在LSTM状态上的聚类

由于我们认为LSTM是对每个音素的声学轨迹建模，因此很自然地认为LSTM状态应该很好地表示该轨迹。因此，我们使用来自先前训练的两层LSTM模型的LSTM状态向量重复相同的聚类算法。训练集中的每个音素都由该音素最后一帧的LSTM第二层状态表示，该状态为800维。在这种情况下，聚类将产生8491个CD音素。

4.2 聚类右上下文

应当注意的是，使用带有双向LSTM的连续时序分类（CTC）算法在全音素模型上已显示出良好的结果，而无需上下文相关的建模。我们认为双向性为模型提供了声学环境的证据，因此LSTM模型本身就是在给定上下文的情况下对分布进行建模，就像在搜索图的基础上选择与环境有关的单元一样，分布条件取决于上下文。由于我们有一个单向模型，它了解左但不是右上下文，因此我们仅根据右语音上下文研究了聚类的效果。对于这些实验，我们再次使用LSTM状态功能，并且聚类产生了1120个CD音素单元。

5.持续时间建模

在这里插入图片描述
　　我们在第3节中观察到，在音素模型上施加最小持续时间可以改善WER，并且在音素的HMM中复制状态是实现这种最小持续时间模型的简单方法。我们注意到，这样的持续时间模型在整个音素HMM中更容易应用，因为与三个单独的离散持续时间分布相比，总持续时间噪声较小且易于量化。通过在解码器中显式处理持续时间，可以更有效地实现等效于重复状态的效果。
　　实际上，我们可以为每个模型单独提供最短持续时间。尽管有大量有关语音和手写的HMM持续时间建模的文献，但我们的baseline系统实际上没有持续时间模型（对于所有状态，自身和下一个转移概率均为0.5，因此所有路径均会产生相同的转移概率乘积）。估计最小持续时间模型的简单方法是基于在训练集上观察到的持续时间直方图。为简单起见，我们采用了用于训练的原始对齐方式，并在聚类层次结构的每个级别上为CD音素模型计算了持续时间直方图。
　　图2显示了音素模型的累积直方图。每个音素都有3个或更多状态的持续时间，因为对齐是通过3状态HMM完成的，但是可以看出，对于不同的音素，观察到的分布非常不同。设定累积概率的阈值（我们发现概率质量的阈值为初始测试中的最佳结果的10％），我们得出每个CD状态的最短持续时间（如图1（e）所示），沉默的特殊情况下，我们放松到三态的最小持续时间。
在这里插入图片描述
　　表2显示了测试8397状态CD音素LSTM声学模型时不同持续时间模型的影响。再次可以看出，为确保良好的性能，设置最小持续时间是必不可少的，当每个模型都具有持续时间4时，具有最佳性能，设置每个音素的最小持续时间会产生更好的结果，但是当为每个CD音素模型单独选择最小持续时间时，则可以找到最佳性能。
在这里插入图片描述
　　表3比较了将CD-phone聚类的三种不同方法（基于DNN激活，仅基于右上下文的LSTM状态或LSTM状态）与标准CD状态项。在每种情况下，我们都会比较不同状态项的大小。
　　我们首先观察到，具有8367/8491状态的全音素CD模型的性能与具有13522状态的传统CD状态模型一样好（并且优于具有8000状态的CD状态模型）。对于较小的状态项，其性能大致可比。我们观察到，用于CD音素树构建的两种函数类型具有相似的性能。尽管状态数很小（1120），但它代表了正确的上下文，这似乎是不够的，尽管它代表了可能的右聚类二重音单元的70％。

CONTEXT DEPENDENT PHONE MODELS FOR LSTM RNN ACOUSTIC MODELLING翻译

摘要