2015-2016年语言模型用于改善语音识别的论文创新点总结

2016_ICASSP_Minimum word error training of long short-term memory recurrent neural network language models for speech recognition

本文描述了在语音识别中的LSTM语言模型最小化词错误的训练。RNNLM一般通过最小化交叉熵训练去估计句子的概率值,这符合最大似然估计准则。但是,这并没有适应目标任务,如语音识别中的词错误率。研究人员对于n元模型,已经提出来几个不同的最小化词错误率的训练方法,但是研究RNNLM的最小化WER训练方法。所以本文提出了MWE的训练方法,用于训练RNNLM。结果表明,该训练方法在AMI任务中WER改善了1.1%,CSJ任务改善了1.2%.

创新点:更换训练目标,将交叉熵改为WER。

2016_ICASSP_Semantic word embedding neural network language models for automatic speech recognition.

在过去几年中,由于语意词嵌入可以捕捉丰富的语义信息,在大规模语料中易于学习,其在nlp任务中变得越来越重要。当前语音识别中的语言模型没有不包含语意信息。作者认为语意词嵌入相对于NNLM学习的词嵌入可以提供多样的信息。作者提出将语意词嵌入引入NNLM框架,将结果应用在新闻播放语音识别中,发现困惑度和WER都有所改善。

创新点:在语言模型中加入语意词嵌入。

2016_Interspeech_NN-Grams- Unifying Neural Network and n-Gram Language Models for Speech Recognition

作者结合神经网络和N元模型提出了用于语音识别的NN-gram语言模型。作者使用26B词进行训练,使用noise contrastive estimation (NCE)方法,该方法将神经网络的估值问题准化为一个有效数据和噪声的二分类问题。结果发现NN-gram在意大利语语音听写任务中比N-gram表现的好。相对减少了7%的WER

创新点:将神经网络和N元模型结合提出NN-gram模型。

2016_ISCSLP_Improving accented Mandarin speech recognition by using recurrent neural network based language model adaptation

作者提出自适应RNNLM用于多方言中文语音识别,相对于N元模型,RNN语言模型可以捕捉长依赖信息,但是解码需要很长时间。本文将RNNLM插值到N元模型中,对词格重新打分应用到中文方言语音识别中。在RASC863方言语料库实验发现,本文提出的方法表现比N元模型表现好。

创新点:本文创新点平平。

2016_Interspeech_LSTM, GRU, Highway and a Bit of Attention- An Empirical Overview for Language Modeling in Speech Recognition(打印)

受LSTM影响,多乘法门应用到NN中,如GRU,highway网络。作者首次关注大词汇语音识别中,LM的门结构,即highway网络,lateral网络,LSTM和GRU。最近有人提出在相邻LSTM层中记忆单元之间加入highway网络。作者研究了一个方法,可以在LSTM或者GRU中加入highway网络作为转换函数。作者发现,这可以使RNNLM在深度结构中受益,并且可以轻微的提高语音识别精度。作者还将attention机制引入到学习词触发任务中。最后作者任认为语言模型中LSTM比GRU更合适。

创新点:本文偏综述,比较了不同的门结构单元,并把将highway网络引入到LSTM和GRU中。

2015_ICASSP_Recurrent neural network language model with structured word embeddings for speech recognition(打印)

RNNLM比n元模型更能捕捉上下文信息,但是训练数据很少时,建立语言模型有困难。为了处理这个问题,作者在RNNLM中提出了结构化词嵌入。它将输入和目标词嵌入同时分解到子词嵌入的权重和中。在中文实现上述方法,使用字符作为子词嵌入。在中文twitter大词汇量连续语音识别任务中,比N-Best模型表现好,困惑度相对改善8.8%,CER绝对改善0.59%.

创新点:结构化词嵌入,改变词嵌入。

2015_ICASSP_RECURRENT NEURAL NETWORK LANGUAGE MODEL TRAINING

RNNLM成功应用在很多领域,但是存在训练时计算代价太高的问题。一个重要的原因是输出层的softmax函数需要计算正则项,且词汇量越大,计算代价越大。为了解决这个问题,采用noise contarstive estimation(NCE)。该方法对词汇量不敏感,不需要正则化。在对话语音识别任务中,在GPU的训练速度提高了一倍,在CPU上的测试速度提高了56倍。

创新点:提出使用NCE的方法,加速NNLM的训练

2015_ICASSP_Recurrent neural network language model adaptation for multi-genre broadcast speech recognition.

RNNLM已经广泛应用多个领域,例如语音识别。之前的LM都是在相应的领域进行训练得来的,自适应RNNLM可以探索新的领域。本文研究了多类型多话题的RNNLM,应用于多类型广播转录任务。使用概率潜在语意分析, Latent Dirichlet Allocationa, Hierarchical Dirichlet Processes提取话题信息,增加到输入层。使用大词汇量连续语音识别系统,1000小时的语音,1B个单词文本。结果表明自适应使困惑度相对降低8%。词错误率也有所改善。

创新点:多类型领域的语言模型自适应,语言模型包含了多个领域,不局限于某一个单独的领域。

2015_ICASSP_Long short-term memory language models with additive morphological features for automatic speech recognition

将词看成一个一个单元会造成数据稀疏问题,基于词的语言模型不能从普通词汇学习的知识转化到罕见的词。可以通过组合模型,将由连续向量表示的词素值相加,表示成一个单词。这样罕见的词拥有相同的词素可以有效的表示。作者将形态学表征信息加入到LSTM框架中,提高了俄罗斯语的语音识别,WER绝对增加0.9,相对增加4.4%.

创新点:语音模型中加入形态学特征

国内做相关研究的机构

上交,中国科学院大学

猜你喜欢

转载自blog.csdn.net/yang_daxia/article/details/84755654