自然语言处理综论-第6章小结-N元语法

自然语言处理综论-第6章小结-N元语法


本章介绍了N元语法,这是一种年代久远而使用广泛的语言处理实用工具。

  • N元语法概率是一个单词在前面给定的N-1个单词的条件下的条件概率。N元语法概率可以通过在语料库中简单地计数并使之归一化的方法来进行计算(即最大似然估计),或者也可以通过更复杂的算法来进行计算。N元语法的优点是可以使用丰富的词汇知识,缺点是对训练语料库的依赖性太强。
  • 平滑为估计那些从来不出现的N元语法概率提供了一种较好的解决办法。常用的平滑算法有回退算法、删除插值算法、Witten-Bell打折法和Good-Turing打折法。
  • 评测诸如N元语法这样的基于语料库的语言模型时,要把语料库分为训练集和测试集两部分。在训练集上训练模型,在测试集上评测模型。测试集的熵 H H H或困惑度 2 n 2^n 2n(更恰当的术语是交叉熵和交叉困惑度)用于对语言模型进行比较。

猜你喜欢

转载自blog.csdn.net/qq_17065591/article/details/108228887
今日推荐