前言
- 定义
自然语言处理即NLP是一门交叉学科,包含语音和语言处理、人类语言技术、计算语言学以及语音识别与合成等。 - 应用场景
- 会话代理(对话系统)
- 机器翻译
- 基于网络的问答系统
- 拼写校正
- 语法检查
- 信息抽取
- 词义排歧
1.1 语音与语言处理中的知识
- 语音学与音系学
关于语言语音的知识。 - 形态学
关于词的有意义的组成成分的知识。 - 句法学
关于词与词之间结构结构关系的知识。 - 语义学
关于意义的知识。 - 语用学
关于意义与说话人的目的和意图之间关系的知识。 - 话语学
关于比一个单独的话段更大的语言单位的知识。
1.2 歧义
- 消歧方法
- 词类标注
- 词义排歧
- 词汇排歧
- 句法排歧
1.3 模型与算法
- 几个重要部分
- 状态机器模型
即形式模型,应该包括状态、状态间的转移以及输入表示等,其变体有确定的有限状态自动机、非确定的有限状态自动机和有限状态转录机。 - 形式规则系统模型
即陈述性模型,其中最重要的有正则语法、正则关系、上下文无关语法、特征增益语法以及这些语法相应的概率语法变体。 - 基于逻辑的模型
一阶逻辑即谓词演算,以及诸如运算、特征结构、语义基元等相关形式化方法。 - 概率模型
状态机器使用概率论来提升,从而成为加权自动机,或马尔可夫模型。 - 向量空间模型
实质是通过表示输入假定的状态空间来进行搜索。对弈涉及状态机的非概率的任务,使用深度优先搜索之类的图算法,而对于具有概率的任务,则使用最佳优先搜索算法和A*搜索算法等试探性算法的变体,同时依靠动态规划算法来提高计算的可循环性。 - 分类器
将一个单独客体指派到一个单独类别中。 - 序列模型
对一个客体序列进行分类,将其排到一个类别序列中。
- 状态机器模型
- 算法
- 动态规划的状态空间搜索算法
- 分类器算法
- 期望最大化(EM)算法
1.6 语音和语言处理简史
语音和语言处理包括一系列性质不同而又彼此交叉的学科:语言学中的计算语言学、计算机科学中的自然语言处理、电子工程中的语音识别、心理学中的计算心理语言学。
1.6.1 基础研究:1940s&1950s
自动机的研究和概率模型或信息论模型研究引起人们注意。
1.6.2 两大阵营:1957~1970
- 符号派
- 随机派
1.6.3 四个范型:1970~1983
- 随机范型
- 基于逻辑的范型
- 自然语言理解范型
- 话语模型范型
1.6.6 机器学习的兴起:2000~2008
- 建立带标记语料库的趋势
- 统计机器学习的趋势
- 高性能计算机系统发展的趋势