索引的建立、更新策略

一、索引的建立分为三种方式:

1.两遍文档倒排法

第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等

第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行

2.排序倒排法

步骤为:

排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。

3.归并倒排法

二、索引更新

1.完全重建策略

2.再合并策略

3.原地更新策略

4.混合策略

猜你喜欢

转载自towan.iteye.com/blog/2059417