《数学之美》第二章自然语言处理——从规则到统计

语言的数学本质：

语言的出现是为了人类之间的通信；字母、笔画、文字、数字实际上是信息编码的不同单位，而语言的语法规则则是编解码的算法。

计算机出现之后，希望计算机处理自然语言。计算机处理自然语言的方法和人类一样通过接受信息、解码来处理自然语言。

机器智能：

计算机之父阿兰·图灵最早提出机器智能。

图灵测试：

让人和机器进行交流，如果人无法判断自己的交流对象是人还是机器，就说明机器存在智能了。

早起自然语言处理：

普遍认为要让机器完成翻译或者语言识别功能等只有人类才能做到的事情，就必须要让计算机理解自然语言。——“鸟飞派”。计算机要理解语言需要两件事：分析语句和获取语义

基础层（句法分析/语义分析）→认知层（自然语言理解）→应用层（语言识别、机器翻译、自动问答、自动摘要）

分析句子采用的语法规则通常被称为重写规则，早期是由人工总结文法规则来帮助机器翻译的。但是想通过文法规则覆盖全部语句甚至一部分语句都是不可能的，有的文法规则甚至会出现矛盾，还要说明各个规则特定的使用环境。就算写出涵盖所有自然语言现象的语法规则集合，也很难用计算机来解析。

从规则到统计：

基于统计的方法最初是为了提高语音识别的识别率，之后逐渐被认可。核心模型是通信系统加隐含马尔代夫模型。最初的统计的方法因为没有足够的统计数据，也没有足够强大的模型，效果并不是很明显，随着计算能力的提高和数据量的不断增加，基于统计方法的模型最终战胜了基于规则方法学派。

小结：

基于统计的自然语言处理方法，在数学模型上与通信是相同的，因此在数学意义上自然语言处理又和通信联系在了一起。

《数学之美》 第二章 自然语言处理——从规则到统计