《数学之美》阅读笔记（一）（二）（三）

一：

今后各章节讨论的重点：

通信的原理和信息传播的模型

信源编码和最短编码

解码的规则，语法

聚类

校验位

双语对照文本，语料库和机器翻译

多义性和利用上下文消除歧义性

二：自然语言处理

从基于规则到基于统计

三：统计语言模型

用数学的方法描述语言规律：一个句子是否合理，看他的可能性大小如何。至于可能性就用概率来衡量。

假定S描述一个有意义的句子，w1，w1，...，wn代表组成句子的词。现在想知道S在文本中出现的可能性，也就是数学上说的P（S）=P（w1w2...wn）；

利用条件概率的公式，这个概率可以被计算。但是条件概率越往后面越难以计算。

马尔科夫提出一个简单偷懒的方法。每当遇到这种情况，就假设任意一个词Wi出现的概率比只与他前面的一个词有关，叫做马尔科夫假设。

P（S）就变得简单计算了。P（S）=P（w1）P（w2|w1）P（w3|w2）...P（wn|wn-1）

而

P（Wi|Wi-1）=P（Wi-1，Wi）/P（Wi-1）

#（Wi-1，Wi）代表这对词在统计的文本中前后相邻出现了多少次。

#（Wi-1）代表Wi-1本身在同样的文本中出现了多少次。

上面两个数分别比上语料库的大小#，变得到这些词或二元组的相对频度。

根据大数定律，相对频度等于概率，在统计量足够多的前提下。

所以上面两个结果直接相比就是条件概率密度。

以上假设过于简单。通常假设一个词Wi会和前面的N-1个词有关，而与更前面的词无关。这样当前次Wi的概率只取决于前面N-1个词。

P（Wi|W1，W2，W3...Wi-1）=P（Wi|Wi-n+1...Wi-1）

这个称为N元模型，N=2的情况就是上面那个。实际中应用最多的是3元模型。资源的耗费随N极速上升。

而依照上述公式时，出现次数为0代表概率为0.分子分母都出现一次则代表概率为1.

在数理统计之中，之所以敢用对采样数据进行观察的结果来预测概率，是因为有大数定律。要求有足够多的观测值。

提出一个方法：在统计中相信可靠的统计数据，而对不可信的统计数据打折扣的一种概率估计方法。同时将折扣出来的那一小部分概率给予未看见的事件。

计算那些出现r次的词的概率时，要使用一个更小一点的次数，dr，而不直接用r：

dr=（r+1）Nr+1/Nr

显然dr*Nr求和也是N，（对所有r求和）

之前的rNr求和也是N。

Zipf定律：出现一次的词数量比出现两次得多，如此类推。

可以看出r越大，Nr越小，Nr+1<Nr，所以一般情况下dr+1<r，而d0>0；这样一来，给未出现的词赋予了一个很小的非零值。从而解决了0概率的问题。同时下调了出现频率很低的词的概率。

在实际的自然语言处理中，一般对出现次数超过某个阈值的词，频率不下调，只对出现次数低于这个阈值的词，频率才下调。