自然语言处理综论-第5章小结-发音与拼写的概率模型

自然语言处理综论-第5章小结-发音与拼写的概率模型


本章介绍了几个重要的比喻和算法,它们在语音和语言处理中非常有用。

  • 可以把很多语言问题表示为:当一个整齐而正确的符号串通过噪声信道时被干扰而受到损坏,我们的任务是设法恢复符号串的本来面目。恢复原来符号串的一个有力手段是研究符号串的一切可能结果,按照它们的条件概率加以排序。
  • 条件概率一般使用贝叶斯规则就可以很容易地计算出来。贝叶斯规则把概率分解为先验概率和似然度。在错拼更正或发音模型中,先验概率可以通过单词的频度或单词的二元语法频度来计算。似然度可以通过在数据库中训练简单的概率模型(如混淆矩阵、决策树或手写规则)来计算。
  • 计算两个符号串之间的距离的任务来自错拼更正或其他问题。最小编辑距离算法是动态规划技术在解决这种问题时的一个应用。最小编辑距离算法可以用来产生两个符号串之间的距离,或者用来对齐这两个符号串。
  • 单词的发音是有很多变异的。发音变异的原因有两个:词汇变异和音位变异。词汇变异包含社会语言学的因素,如方言、语域或风格。
  • 影响音位变异的一个最重要的因素是周围音子的辨识。其他重要因素还有音节结构、重音模式、单词的辨识和频度。
  • 解码的任务实质上是这样的一个问题:发现和确定那些生成观察符号"噪声"序列的正确的底层符号序列。
  • 向前算法是计算在给定的加权自动机中观察序列的最有效的途径。正如最小编辑距离算法一样,向前算法也是动态规划的一种变体。在第7章中,研究隐马乐可夫模型时,向前算法将特别有用,因为它可以容许我们对于具有同样观察序列的多条路径进行求和。
  • Viterbi算法也是动态规划的一种变体。当我们考虑所有可能的符号串,使用贝叶斯规则来计算它们生成所观察到的“噪声”序列时,Viterbi算法是解决这种编码问题的有效途径。
  • 在诸如汉语和日语这些没有词界标志的语言中,单词的划分是另一种类型的最优化问题,这类问题可以用Viterbi算法来解决。

猜你喜欢

转载自blog.csdn.net/qq_17065591/article/details/108113874