自然语言处理综论-第5章小结-发音与拼写的概率模型

本章介绍了几个重要的比喻和算法，它们在语音和语言处理中非常有用。

可以把很多语言问题表示为：当一个整齐而正确的符号串通过噪声信道时被干扰而受到损坏，我们的任务是设法恢复符号串的本来面目。恢复原来符号串的一个有力手段是研究符号串的一切可能结果，按照它们的条件概率加以排序。
条件概率一般使用贝叶斯规则就可以很容易地计算出来。贝叶斯规则把概率分解为先验概率和似然度。在错拼更正或发音模型中，先验概率可以通过单词的频度或单词的二元语法频度来计算。似然度可以通过在数据库中训练简单的概率模型（如混淆矩阵、决策树或手写规则）来计算。
计算两个符号串之间的距离的任务来自错拼更正或其他问题。最小编辑距离算法是动态规划技术在解决这种问题时的一个应用。最小编辑距离算法可以用来产生两个符号串之间的距离，或者用来对齐这两个符号串。
单词的发音是有很多变异的。发音变异的原因有两个：词汇变异和音位变异。词汇变异包含社会语言学的因素，如方言、语域或风格。
影响音位变异的一个最重要的因素是周围音子的辨识。其他重要因素还有音节结构、重音模式、单词的辨识和频度。
解码的任务实质上是这样的一个问题：发现和确定那些生成观察符号"噪声"序列的正确的底层符号序列。
向前算法是计算在给定的加权自动机中观察序列的最有效的途径。正如最小编辑距离算法一样，向前算法也是动态规划的一种变体。在第7章中，研究隐马乐可夫模型时，向前算法将特别有用，因为它可以容许我们对于具有同样观察序列的多条路径进行求和。
Viterbi算法也是动态规划的一种变体。当我们考虑所有可能的符号串，使用贝叶斯规则来计算它们生成所观察到的“噪声”序列时，Viterbi算法是解决这种编码问题的有效途径。
在诸如汉语和日语这些没有词界标志的语言中，单词的划分是另一种类型的最优化问题，这类问题可以用Viterbi算法来解决。

自然语言处理综论-第5章小结-发音与拼写的概率模型

自然语言处理综论-第5章小结-发音与拼写的概率模型

猜你喜欢