数学之美——读录

文章目录

第1章文字和语言 vs 数字和信息
第2章自然语言处理——从规则到统计
第3章统计语言模型
第4章谈谈分词
第5章隐含马尔科夫模型
第6章信息的度量和作用
第7章贾里尼克和现代语言处理
第8章简单之美——布尔代数和搜索引擎

第1章文字和语言 vs 数字和信息

主要讲述了文字、数字和语言的历史。

语言和数字的出现都是为了传递信息（通信）。

语言的数学本质：每一门语言都是一种编码规则，而语言的语法规则则是解编码的算法。

每次我们想表达一句话，都先在头脑中使用某种编码规则编码一次。而对方听到后，在脑中解码，才能听懂对方想要表达的意思。

罗塞塔石碑 (Rosette stone)，不列颠博物馆镇馆三宝之一，世界级文物。

制作于公元前 196 年，刻有古埃及国王托勒密五世登基的诏书。石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容，这使得近代的考古学家得以有机会对照各语言版本的内容后，解读出已经失传千余年的埃及象形文之意义与结构，而成为今日研究古埃及历史的重要里程碑。

由于其知名度与重要性，除了石碑本身外，罗塞塔石碑或罗塞塔这名词也被引伸用来意指或暗喻一些其他的事物。

其中，由于石碑上的刻文被用来作为语言翻译用途，因此有一款非常受欢迎的多国语言学习软件，也以《罗塞塔石碑》来命名。

除此之外，由于是破解埃及象形文这种如谜题般的事物之起始点，“罗塞塔石碑” 也被用来暗喻要解决一个谜题或困难事物的关键线索或工具，举例来说，欧洲航天局（ESA）就将其发展的太空探测器命名为罗塞塔，因为透过此计划，将会破解太阳系生成的秘密，是天文研究上的关键突破。

第2章自然语言处理——从规则到统计

所谓的自然语言处理，即让机器读懂人类的语言

本章主要讲述了让机器处理自然语言的两种方法：基于语法规则和基于统计。

历史表明，基于语法规则的方向是错的。

在讲述从基于规则到基于统计的历史时，笔者提出了一个很有趣的问题：为什么这场争议持续了15年呢？

他解释，首先，一种新的研究方法的成熟需要很多年。

第二，用基于统计的方法代替传统的方法，需要等原有的一批语言学家退休。

简单地介绍了，基于统计的方法的核心模型 = 通信系统 + 隐含马尔科夫模型

第3章统计语言模型

自然语言的表达、传递具有上下文相关的特性。

而针对这种特性建立的数学模型，即是统计语言模型（Statistical Language Model）。

统计语言模型是自然语言处理的基础。

假定S是一个有意义的句子，由一连串特定顺序的词 $w_1$ ， $w_2$ ，…， $w_n$ 组成。

马尔科夫假设：假设在句子S中， $w_i$ 出现的概率只和它之前（紧邻）的N个词有关。

当N为1时，我们称之为二元模型（Bigram Model），

当N为N -1时，我们称之为N元模型。

我们先来考虑最简单的情况，N = 1，即 $w_{i-1}$ $w_i$ 。由之前的假设， $w_i$ 的出现与 $w_{i-1}$ 有关，

所以P( $w_{i-1}$ , $w_i$ ) = P( $w_i$ | $w_{i-1}$ ) P( $w_i$ ),

可以预见，随着N的增大，组合词的概率会越来越难算。

但同样的，模型的效果也越好。

四元以上的模型鲜有人用。Google的罗塞塔翻译系统和语音搜索系统，使用的是四元系统。该模型存储在500+台的服务器上。

马尔科夫假设的局限性：再高阶的模型也不能覆盖所有的语言现象。

可以采用一些长程的依赖性来弥补这方面的不足。

在延伸阅读部分，笔者还介绍了，零概率问题（总会有新词出现的嘛，或者说样本不到位）、模型不平滑问题（其实就是零概率问题导致的）、Zipf定律（ 20% 的词占了 80% 的出现次数）。

笔者引申这些就是想表达，统计语言模型形式上看似简单，实际上水深着呢（要考虑的东西很多…）。

但数学的魅力就在于将复杂的问题简单化，哈哈

第4章谈谈分词

如章名所言，简单谈了中文分词方法的演变（词典→统计语言模型），以及如何衡量分词结果的好坏。

和中文语系相比，英语是不存在分词问题的。

不过，笔者也举了一个栗子：英语连续手写软件需要使用分词（单词和单词间没有停顿）。