NLP语言模型



语言模型:

I. 基本思想
区别于其他大多数检索模型从查询到文档(即给定用户查询,如何找出相关的文档),
语言模型由文档到查询,即为每个文档建立不同的语言模型,判断由文档生成用户查
询的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。

II. 生成查询概率
为每个文档建立一个语言模型,语言模型代表了单词(或单词序列)在文档中的分布情
况。针对查询中的单词,每个单词都有一个抽取概率,将这些单词的抽取概率相乘就是文
档生成查询的概率。

III. 存在问题

由于一个文档文字内容有限,所以很多查询词都未在文中出现过,生成概率为0,会导致
查询整体的生成概率为0,这被称为语言模型的数据稀疏问题,是语言模型方法重点需要解决的问题。

IV. 解决方案

一般采用数据平滑方式解决数据稀疏问题。语言模型检索方法则是为所有单词引入一个背
景概率做数据平滑。

猜你喜欢

转载自www.cnblogs.com/Coeus-P/p/9183470.html