搜索引擎的原理以及倒排索引技术

1、搜索引擎的原理


(1)、抓取数据

(2)、临时存储

(3)、清洗数据。不符合规则的清理掉,符合规则的建立索引。

2、倒排索引技术


主要就是对文章进行切词,然后再对每一个单词建立索引。以后就可以通过搜索一个词返回这个词所对应维度文章内容。

(1)、对文章进行切词,切成一个个的词。(NLP:自然语言处理)

(2)、对所有的词给出唯一的编号。

(3)、建立倒排索引的列表,列表里存储的都是文章的ID,这个词在哪些文章里出现过。

(4)、通过搜索某一个关键词,快速返回这个词对应的文章ID。

(5)、通过文章ID获取对应的文章。

猜你喜欢

转载自blog.csdn.net/qicui2835/article/details/80987530