朴素贝叶斯模型 多元伯努利事件模型+多项式事件模型 Multi-Variate Bernoulli Event Model and Multinomial Event Model

朴素贝叶斯模型(Naïve Bayes Models):

适用于离散分布的朴素贝叶斯模型是个概率模型、生成式模型、广泛用于文本分类,自然语言处理和模式识别。
生成式和判别式模型区别:
这里写图片描述
贝叶斯公式如下:
这里写图片描述
由于同一个训练集p(x) p(y)相等,则可转成以下公式:
这里写图片描述
由于模型采用了y=cj,表明使用了标签信息,最后预测时,需要对测试样本属于每个标签的概率都要计算一遍。不像生成式一般直接就输出测试样本的概率分布。
朴素贝叶斯模型有两种事件模型,分别:多元伯努利事件模型+多项式事件模型,Multi-Variate Bernoulli Event Model and Multinomial Event Model

多项式事件模型:

模型概率计算:
这里写图片描述
最大似然求参:
这里写图片描述
解出闭式解:
这里写图片描述
这里写图片描述
为了在预测时出现概率为0的情况,应用Laplace smoothing:
这里写图片描述

多元伯努利事件模型

模型概率求解:
这里写图片描述
闭式解:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

简单例题了解二者模型区别

首先需明白对于文本分类,两个模型都是使用BOW字典进行统计的,但是统计方式不同。多项式事件模型,对于文本中每个出现的word,都会在字典向量中统计量加1;而多元伯努利事件模型,,对于文本中每个出现的word,都会在字典向量中置为1,反之置为0,即使一个word重复多次;这就导致它们最终预测时的计算方式的不同。
这里写图片描述
这里写图片描述

参考文献

猜你喜欢

转载自blog.csdn.net/qq_16234613/article/details/81078159
今日推荐