1、搜索引擎的原理
(1)、抓取数据
(2)、临时存储
(3)、清洗数据。不符合规则的清理掉,符合规则的建立索引。
2、倒排索引技术
主要就是对文章进行切词,然后再对每一个单词建立索引。以后就可以通过搜索一个词返回这个词所对应维度文章内容。
(1)、对文章进行切词,切成一个个的词。(NLP:自然语言处理)
(2)、对所有的词给出唯一的编号。
(3)、建立倒排索引的列表,列表里存储的都是文章的ID,这个词在哪些文章里出现过。
(4)、通过搜索某一个关键词,快速返回这个词对应的文章ID。
(5)、通过文章ID获取对应的文章。