哈尔滨工业大学计算机学院-自然语言处理-课程总结

1. 前言

  • 自然语言处理是关毅老师的研究生课程。
  • 本博客仅对噪声信道模型、n元文法(N-gram语言模型)、维特比算法详细介绍。
  • 其他的重点知识还包括概率上文无关文法(PCFG)、HMM形式化定义、词网格分词等等,比较简单,不做赘述。

2. 噪声信道模型

2.1 噪声信道模型原理

  • 噪声信道模型的示意图如下所示:
  • 该模型的目标是通过有噪声的输出信号试图恢复输入信号,依据贝叶斯公式,其计算公式如下所示:
    \[I = \arg \max _ { I } P ( I | O ) = \arg \max _ { I } \frac { P ( O | I ) P ( I ) } { P ( O ) } = \arg \max _ { I } P ( O | I ) P ( I )\]
    • \(I\)指输入信号,\(O\)指输出信号。
  • 噪声模型的优点是具有普适性,通过修改噪声信道的定义,可以将很多常见的应用纳入到这一模型的框架之中,相关介绍见2.1。

2.2 噪声信道模型的应用

2.2.1 语音识别

  • 语音识别的目的是通过声学信号,找到与其对应的置信度最大的语言文本。
  • 计算公式与上文相同,此时的\(I\)为语言文本,\(O\)为声学信号。
  • 代码实现过程中,有一个信息源以概率\(P(I)\)生成语言文本,噪声信道以概率分布\(P(O|I)\)将语言文本转换为声学信号。
  • 模型通过贝叶斯公式对后验概率\(P(I|O)\)进行计算。

2.2.2 其他应用

  • 手写汉字识别
    • 文本 -> 书写 -> 图像
  • 文本校错
    • 文本 -> 输入编辑 -> 带有错误的文本
  • 音字转换
    • 文本 -> 字音转换 -> 拼音编码
  • 词性标注
    • 词性标注序列 -> 词性词串替换 -> 词串

3. N-gram语言模型

  • N-gram语言模型基于马尔可夫假设,即下一个词的出现仅仅依赖于他前面的N个词,公式如下:
    \[P ( S ) = P \left( w _ { 1 } w _ { 2 } \dots w _ { n } \right) = p \left( w _ { 1 } \right) p \left( w _ { 2 } | w _ { 1 } \right) p \left( w _ { 3 } | w _ { 1 } w _ { 2 } \right) \ldots p \left( w _ { n } | w _ { 1 } w _ { 2 } \dots w _ { n - 1 } \right)\]

4. 维特比算法

猜你喜欢

转载自www.cnblogs.com/szxspark/p/10262161.html