搜索引擎对库中网页的维护策略

1、定期搜集,每次搜集替换上一次的内容,称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花几周。而由于这样做开销较大,通常两次搜集的间隔时间也不会很短。这样做的好处是系统实现比较简单,主要缺点是“时新性”(freshness)不高,还有重复搜集所带来的额外带宽的消耗。
2、增量搜集,开始时搜集一批,往后只是
(1)搜集新出现的网页,
(2)搜集那些在上次搜集后有过改变的网页,
(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除

猜你喜欢

转载自deepfuture.iteye.com/blog/573805