语音识别结果文本纠错综述

版权声明:我是南七小僧,微信: to_my_love ,欢迎交流思想碰撞。 https://blog.csdn.net/qq_25439417/article/details/83141963

 语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。

        目前,用于语音识别结果纠正的方法有很多,但还没有一个主流的方法。大多数的ASR后修正的研究都是基于词的识别结果概率信息的统计方法。

        Ringger和Allen (1996)提出了一种对语音识别错误进行后处理的方法。该方法包含两部分,信道模型反映识别器识别的错误,而语言模型则用于表示说话人说出的词序列的似然概率。文中用TRAINS-95对话系统的结果作为训练集。

        Zhou和Meng (2004)提出了一种两层模式的语音识别错误发现方法。第一层用SVM进行分类并判断识别结果是否有错,如果有错,传递到第二层。第二层利用SVM对有错的句子进行分类并判断哪些是错误的单词。实验证明,第一层错误句子召回率为16.5%,第二层错误句子中错误单词的召回率为19.8%。

还有一些方法用到了相邻词的共现信息。Zhou et al. (2006)提出了一种3阶段错误检查方法。第一步检测识别句子是否包含错误;第二步检测错误哪些词是错误的;第三步检测错误的字符;错误纠正首先产生错误可能的修正候选词列表,然后结合互信息和trigram语言模型对候选词进行re-ranked。

         Arup Sarma和David D. Palmer提出一种基于上下文词共现进行语音识别错误纠错的方法。该方法需要较大的语料,设定一个窗口长度w,定义在中心词keyword周围w/2范围内都算作keyword的邻居。遍历文本统计每个词的邻居和出现次数,并对邻居进行排序。根据识别错误的词和读音相似的候选词对于上下文的KL距离判断识别结果是否是错误的词,并找出正确的候选词。

        Minwoo Jeong提出了一种结合词汇信息和高层语言知识并利用最大熵语言模型(MELM)进行错误识别的方法。Minwoo Jeong认为语音识别结果的N-best重排是一个主要的方法。但是这种方法假设正确的识别结果一定出现在N-best结果中,如果正确结果不在N-best中,则一定不能找到正确结果。这种方法受限于语音识别系统的准确率。于是他提出了一种信道上下文和高级语言知识的方法。该方法需要三部分语料:很大的背景语料(收集自相关或一些其他任务的语音识别结果语料)B、小部分ASR修正语料对A1和小部分特定领域识别任务的特征语料A2。利用语料A1训练信道模型,用B和A2训练语言模型。通过MAP找出最可能的正确结果。

        在考虑信道模型时,为了解决添音和吞音的错误,文中采用了机器翻译中IBM model4 来解决这个问题。在用语料B和A2进行语言模型训练时,采用对两种语料分别训练语言模型并对产生的语言模型进行线性差值。此外该文章中还利用了两层的语言模型:ngram和whole-sentence ME languageModel(WSME-LM)。Ngram语言模型是第一层,用于捕捉那些局部依赖的特征,并且可以快速的处理。WSME-LM是第二层,可以捕捉长距离的依赖和更高层次的语言现象。

        结果经过试验证明,这种方法的词错率下降了8%左右。

李晶皎等根据汉语语音的特点,通过总结在连续汉语语音识别的汉字序列中出现错误的规律,写出相应的用于查错和校正的语法和句法语义规则,利用“词汇语义驱动”的分析方法,找到汉字序列中的错误并校正,最终得到正确的汉字序列。

      李蕾、许晶等提出了用全信息自然语言理解的知识对语音识别文本进行纠错的方法。该方法将全信息(自然语言的语法、语义和语用信息)自然语言理解应用到可靠语音功能的研究中,提出的语音识别之后增加一个全信息自然语言理解的文本后处理功能,通过深入分析词语的语法信息(位置、识别稳定度)、语义信息(语句目标含义)和语用信息(语境和谐度)对语音识别结果语句进行评估、检错和纠错,最终输出优化语句。

      张全、张倪等提出了基于概念层次网络(HNC)的汉语语音识别的纠错方法。该方法的主要思想是:当纠错处理发现识别系统产生的结果是一个有错误的句子,首先根据线索确定错误的位置。由于句类分析系统可以判断句中的词汇是否合理,因此只要在认为有错误的位置上给出可以替换的候选集,纠错实际上就转化为模糊消解。由于识别系统只能给出汉字结果不提供中间结果.所以回到有错汉字对应的音,看是否能找到正确的词语:如果无法找到,考虑混淆音组成的词。混淆音为纠错处理提供更多的候选,使其尽可能找到符合概念联想脉络的正确词语。

      王兴建提出了一种基于ngram语言模型的语音识别纠错方法。该方法根据对语音识别结果相邻词之间概率的分析,找出可能的错误词位置,并应用拼音的混淆规则、拼音稳定度和拼音相似度等信息,找到错误词最可能的替换词。

 参考文献:

Allen J F, Miller B W, Ringger E K, et al. Arobust system for natural spoken dialogue[C]//Proceedings of the 34th annualmeeting on Association for Computational Linguistics. Association forComputational Linguistics, 1996: 62-70.

Zhou Z, Meng HM. A two-level schema for detecting recognition errors[C]//INTERSPEECH. 2004.

Jeong M, Kim B,Lee G. Using higher-level linguistic knowledge for speech recognition errorcorrection in a spoken Q/A dialog[C]//Proceedings of the HLT-NAACL specialworkshop on Higher-Level Linguistic Information for Speech Processing. 2004:48-55.

Jeong M, Eun J,Jung S, et al. An error-corrective language-model adaptation for automaticspeech recognition[C]//INTERSPEECH. 2005: 729-732.

李晶饺, 张喇, 姚天顺. 汉语语音理解中自动纠错系统的研究[J]. 1999.

张全, 张倪, 韦向峰. 汉语语音识别的纠错处理[C]//自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集. 2001.

Sarma A, PalmerD D. Context-based speech recognition error detection andcorrection[C]//Proceedings of HLT-NAACL 2004: Short Papers. Association forComputational Linguistics, 2004: 85-88.

猜你喜欢

转载自blog.csdn.net/qq_25439417/article/details/83141963
今日推荐