文本上的算法读书笔记一--基础知识

1.1 概率论

概率描述一些事情发生的可能性。

大数定理:

当试验次数(样本)足够多的时候,事件出现的频率无限接近于该事件真实发生的概率。

来表示随机变量的概率,那么就要满足如下两个特性:

联合概率

表示两个事件共同发生的概率,如果相互独立,则

条件概率

是指在已知事件x已发生的情况下,事件y发生的概率。且有。如果这两个事件相互独立,那么相等。

联合概率和条件概率分别对应两个模型:生成模型和判别模型。

期望:

概率分别的均值称为期望:

期望就是对每个可能的的取值x,与其对应的概率值,进行相乘求和。假如一个随机变量的概率分布式均匀分布,期望就等于均值。

方差:

概率分布的方差为:

方差表示随机变量偏离期望的大小。衡量数据的波动性,方差越小表示数据越稳定,反之波动性越大。

概率分布有:均匀分布,正态分布,二项分布,泊松分布,指数分布等


1.2 信息论

外面下雨了,很平常

见到外星人了,很稀奇

同样两条信息。一条信息量很少,一条信息量很大,很有价值,如何量化呢

信息熵

需要信息熵,一个随机变量X的信息熵如下:

信息越少,事件的不确定性越大,信息熵很大。

信息熵表示不确定性的度量

联合熵:

描述的是一对随机变量X和Y的不确定性。

条件熵:

条件熵衡量的是在一个随机变量X已知的情况下,另一个随机变量Y的不确定性。

互信息:

衡量两个随机变量的相关程度,当X和Y完全相关时,互信息就是1,完全无关时,互信息就是0。

互信息与熵的关系:

相对熵(KL距离):

相对熵是衡量相同时间空间里两个概率分布(函数)的差异程度(不同于熵和互信息,它们衡量的是随机变量的关系)

分布相同,相对熵为0,当差异增加,则相对熵增加。

物理意义在于如果用Q分布来编码P分布(一般是真实分布)的话,平均每个基本事件编码长度增加了多少比特。

交叉熵:

可以理解为p的信息熵+

举例

计算机和硬件的互信息就比计算机和杯子的互信息要大,因为更相关。

计算方法,,x独立出现的概率,y独立出现的概率,x和y同时出现的概率。

文档中计算词出现的个数,相除就可以了

1.2 贝叶斯法则

定义如下:

是后验概率,是似然概率,是先验概率,称为标准化常量。

应用:

分词是自然语言处理的最底层,最基本的一个技术了。

对一句话分词,最简答的就是查字典,使用的策略是最大值匹配。

查字典法有两种:

正向最大匹配法和反向最大匹配法。一个是从前向后匹配,一个是从后向前匹配。

棘手问题:

歧义问题。

如学历史知识

前向:学历/史/知识

后向:学/历史/知识

存在二义性。

基于统计的方法:

假设用户输入的句子用S表示,把S分词后结果表示为:

那么我们求得是达到最大值的那个分词结果,这个概率不好求,于是通过贝叶斯:

是一个标准化常量,公式改写为

表示这种分词生成句子S的可能性,表示这种分词本身的可能性。

可以认为就是1,因为必然能生成S,那么剩下的就是计算

在数学中,要简化数学模型,那就是假设

假设句子中一个词的出现概率只依赖于它前面的那个词,根据全概率公式:

可以改写成:

接下来就是估计这样问题变得简单,只要统计这对词在统计文本中前后相邻出现了多少次,以及在同样的文本中出现了多少次。

平滑,防止概率为0

实际系统中,由于性能等原因,很少使用语言模型来分词消歧,而是使用序列标注、共现和一些规则等方法来消歧。

猜你喜欢

转载自blog.csdn.net/qq_24495287/article/details/83063484