《数学之美》阅读笔记(一)(二)(三)

一:

今后各章节讨论的重点:

通信的原理和信息传播的模型

信源编码和最短编码

解码的规则,语法

聚类

校验位

双语对照文本,语料库和机器翻译

多义性和利用上下文消除歧义性


二:自然语言处理

从基于规则到基于统计


三:统计语言模型

用数学的方法描述语言规律:一个句子是否合理,看他的可能性大小如何。至于可能性就用概率来衡量。

假定S描述一个有意义的句子,w1,w1,...,wn代表组成句子的词。现在想知道S在文本中出现的可能性,也就是数学上说的P(S)=P(w1w2...wn);

利用条件概率的公式,这个概率可以被计算。但是条件概率越往后面越难以计算。

马尔科夫提出一个简单偷懒的方法。每当遇到这种情况,就假设任意一个词Wi出现的概率比只与他前面的一个词有关,叫做马尔科夫假设。

P(S)就变得简单计算了。P(S)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)


P(Wi|Wi-1)=P(Wi-1,Wi)/P(Wi-1)

#(Wi-1,Wi)代表这对词在统计的文本中前后相邻出现了多少次。

#(Wi-1)代表Wi-1本身在同样的文本中出现了多少次。


上面两个数分别比上语料库的大小#,变得到这些词或二元组的相对频度。

根据大数定律,相对频度等于概率,在统计量足够多的前提下。

所以上面两个结果直接相比就是条件概率密度。


以上假设过于简单。通常假设一个词Wi会和前面的N-1个词有关,而与更前面的词无关。这样当前次Wi的概率只取决于前面N-1个词。

P(Wi|W1,W2,W3...Wi-1)=P(Wi|Wi-n+1...Wi-1)

这个称为N元模型,N=2的情况就是上面那个。实际中应用最多的是3元模型。资源的耗费随N极速上升。


而依照上述公式时,出现次数为0代表概率为0.分子分母都出现一次则代表概率为1.

在数理统计之中,之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定律。要求有足够多的观测值。


提出一个方法:在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法。同时将折扣出来的那一小部分概率给予未看见的事件。

计算那些出现r次的词的概率时,要使用一个更小一点的次数,dr,而不直接用r:

dr=(r+1)Nr+1/Nr

显然dr*Nr求和也是N,(对所有r求和)

之前的rNr求和也是N。


Zipf定律:出现一次的词数量比出现两次得多,如此类推。

可以看出r越大,Nr越小,Nr+1<Nr,所以一般情况下dr+1<r,而d0>0;这样一来,给未出现的词赋予了一个很小的非零值。从而解决了0概率的问题。同时下调了出现频率很低的词的概率。


在实际的自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,只对出现次数低于这个阈值的词,频率才下调。

猜你喜欢

转载自blog.csdn.net/jr1261181988/article/details/54667020