哈尔滨工业大学计算机学院-自然语言处理-课程总结

其他 2019-01-13 12:27:59 阅读次数: 0

1. 前言

自然语言处理是关毅老师的研究生课程。
本博客仅对噪声信道模型、n元文法（N-gram语言模型）、维特比算法详细介绍。
其他的重点知识还包括概率上文无关文法（PCFG）、HMM形式化定义、词网格分词等等，比较简单，不做赘述。

2. 噪声信道模型

2.1 噪声信道模型原理

噪声信道模型的示意图如下所示：
该模型的目标是通过有噪声的输出信号试图恢复输入信号，依据贝叶斯公式，其计算公式如下所示：
\[I = \arg \max _ { I } P ( I | O ) = \arg \max _ { I } \frac { P ( O | I ) P ( I ) } { P ( O ) } = \arg \max _ { I } P ( O | I ) P ( I )\]
- \(I\)指输入信号，\(O\)指输出信号。
噪声模型的优点是具有普适性，通过修改噪声信道的定义，可以将很多常见的应用纳入到这一模型的框架之中，相关介绍见2.1。

2.2 噪声信道模型的应用

2.2.1 语音识别

语音识别的目的是通过声学信号，找到与其对应的置信度最大的语言文本。
计算公式与上文相同，此时的\(I\)为语言文本，\(O\)为声学信号。
代码实现过程中，有一个信息源以概率\(P(I)\)生成语言文本，噪声信道以概率分布\(P(O|I)\)将语言文本转换为声学信号。
模型通过贝叶斯公式对后验概率\(P(I|O)\)进行计算。

2.2.2 其他应用

手写汉字识别
- 文本 -> 书写 -> 图像
文本校错
- 文本 -> 输入编辑 -> 带有错误的文本
音字转换
- 文本 -> 字音转换 -> 拼音编码
词性标注
- 词性标注序列 -> 词性词串替换 -> 词串

3. N-gram语言模型

N-gram语言模型基于马尔可夫假设，即下一个词的出现仅仅依赖于他前面的N个词，公式如下：
\[P ( S ) = P \left( w _ { 1 } w _ { 2 } \dots w _ { n } \right) = p \left( w _ { 1 } \right) p \left( w _ { 2 } | w _ { 1 } \right) p \left( w _ { 3 } | w _ { 1 } w _ { 2 } \right) \ldots p \left( w _ { n } | w _ { 1 } w _ { 2 } \dots w _ { n - 1 } \right)\]

4. 维特比算法

猜你喜欢

转载自www.cnblogs.com/szxspark/p/10262161.html

哈尔滨工业大学计算机学院-自然语言处理-课程总结

哈尔滨工业大学计算机学院-模式识别-课程总结-实验考试

哈尔滨工业大学计算机学院-最优化方法-课程总结

哈尔滨工业大学计算机学院-人工智能-课程总结

哈尔滨工业大学计算机学院-数理统计-课程总结

哈尔滨工业大学计算机学院-模式识别-课程总结（三）-线性判别函数

哈尔滨工业大学计算机学院-模式识别-课程总结（二）-概率密度函数的参数估计

2020年哈尔滨工业大学(深圳)计算机学院预推免面试

2020年哈尔滨工业大学(深圳)计算机学院预推免机试

哈尔滨工业大学（深圳）计算机学院陈科海老师招收硕博研究生

计算机考研复试上机题 —— 数字阶梯求和 (哈尔滨工业大学)

哈尔滨工业大学（深圳）计算机组成原理指导

哈尔滨工业大学_计算机组成原理课件打包(刘宏伟)

【考研】哈尔滨工业大学计算机考研854复习资料

【考研】2021年哈尔滨工业大学计算机考研「复试」经验贴

哈尔滨工业大学计算机考研分析

众数（哈尔滨工业大学）

考研计算机复试（广东工业大学C语言复试2018笔试题）（精华题选）

【计算机网络】哈尔滨工业大学MOOC-计算机网络第2周计算机网络概述（下）作业2

自然语言处理NLP以及现代计算机工业革命

西北工业大学《计算机控制技术》机考网考

2021级《合肥工业大学计算机》线上复试经验分享`

2023西北工业大学计算机考研经验分享

西北工业大学计算机考研分析

哈尔滨工业大学深圳2019计算方法考试题目预测

分享-苏小红---哈尔滨工业大学---C语言程序设计视屏

考研计算机复试（广东工业大学C语言复试2014~2017笔试题）（精华题选）

哈尔滨工业大学2019算法设计期末试题

哈尔滨工业大学百鸡问题(java)

计算机视觉+自然语言处理=强AI？

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)