IR的核心问题：预测哪些文档是相关的，哪些文档是不相关的。主要工作在于排序这个核心的问题，如何计算这个排序从而处理文档的相关性。
检索模型描述了如下这些细节
文档表示（ Document representation） -对库中的文档进行表示
查询表示（ Query representation） -对用户输入的查询进行表示
比较方法（Comparison function）-解决如何对文档进行排序
不同的减缩模型使用的相关性的概念都是不相同的。

3．检索模型的形式特征

在这里插入图片描述

二、General method-共享词袋

检索过程判断相关信息十分困难，用户需求十分模糊，包括了上下文，需求等信息，必须尽量简化。
（1）共享词袋假设-最基础的假设-以词决定相关性
所有的词（文档、查询）都来自同一个字典，当二者的某些词相同，就被认为相关。
（2）词袋方法-以词为主（语法结构之类的无关）
把每个文档看作一个装满词的词袋，信息检索就是是文档中的词与查询中的词的匹配。

1．索引词

索引词的定义：从列表、文件或词典中提取的关键性的字（word）或词（phrase），可以反映对材料内容的主要或次要层次上的描述。

一般是文档中的名词，但是名词的识别本来就是一个特别艰巨的任务，因此一般只是去掉停止词，得的地之类的。

现在假设除了停止词以外都是索引词（全文表示），一般数据存储都没问题。

2．词的权重

不是所有词能表达文档的主题思想，以权重来衡量某个词对这篇文档的重要性。注意某个词的权重只在对应的文档中有意义。权重量化了索引词表示文档内容的能力。
在这里插入图片描述

3．经典的检索模型

在这里插入图片描述
他们如何进行最核心的两个表示一个比较过程？

三、布尔模型

基于集合理论的简单检索模型。
索引词进行二值化处理，出现的词权重为1，不出现则权重为0。
查询是一个布尔表达式。（and or not）比如，我查的词包括信息和学习，信息或者学习等。
And or not对计算机而言有点难以理解，我们一般把一个普通的查询表示为若干个析取范式的合取，以便计算机理解。

1．Case

在这里插入图片描述

2．相似度测量

在这里插入图片描述
文档满足布尔查询，那么相似度为1，否则相似度为0，没有第三种可能。

3．检索步骤

第一步：将文档集中的每个文档表示为索引词的布尔向量-词库的表示
第二步：将查询表示为析取范式-查询的表示
第三步：根据相似度计算公式计算各文档与查询的相似度(0 OR 1)；-比较
第四步：如果相似度为1，表示匹配，可将该文档作为结果输出；如果相似度为0，表示不匹配，认为该文档不满足用户的需求。–输出结果文档
他可以完成两个表示一个比较的工作，只是不能完成排序，只有二值化的输出这个缺点。

4．检索实例

在这里插入图片描述

5．布尔模型的讨论：

（1）优点

AND可以表示概念之间的关系。
OR可以表示可选择的词汇。（同义词）
NOT可以表示反义词。
准确，高效（0-1表示，析取范式效率很高），简单优美。
（2）缺点

自然语言是复杂的。AND挖掘了一些不存在的关系，在不同句子，段落中的词被强行绑定在一起。用OR猜测词语是非常困难的，选择近义词也是需要人工训练的。猜测要排斥的词汇更加困难。
全部都是精确匹配：基于二值决策，不存在部分匹配，但IR其实是一个模糊的查询。经常检索出太少或者太多的文档。
结果不排序：无排序的机制，只有相关或者不相关，没有相关级别的变化。
布尔表示查询：让用户使用or not and表示查询。用户负担过大，因此用户构造的查询通常过于简单。