搜索引擎开发需要用到什么技术?

前言

搜索引擎的开发流程请移步此处:搜索引擎的开发流程
项目展示:海豚全网搜索引擎

搜索引擎是一个体积庞大的系统架构,其中的细节技术非常之多主要包括以下:

1,爬虫技术
搜索引擎搜索展现的前提是,将互联网的网站内容爬取到服务器保存,再进行处理,展现。想要进行全网的数据爬取,爬虫系统的设计很关键,需要具备高效,健壮的特点。爬取数据分为深度优先和广度优先。

2,数据清洗
由于每个网站的标准不一,实际上爬取的数据非常杂乱,且包括大量的垃圾无用的内容,因此需要对数据进行过滤,去重。处理完毕将数据入库。

3,建立索引
数据处理完毕,下一步就是建立索引,索引是全文搜索的核芯技术之一,是在海量数据中快速拿到相关内容的关键一步。索引一般采用倒排索引,基本结构是 关键词1=>文档id1,文档id2,文档id3…,关键词2=>文档id1,文档id2,文档id3…,其中用到了中文分词技术,将一个句子所有的可能成词的组合全部提取出来,这样能提高搜索召回率。

4,搜索排序,展现
这一步就是将搜索者的搜索句子进行处理,从索引库中进行查询,找到对应的文档id,再进行一番打分排序,将最相关的内容返回到前台页面。

我的搜索引擎项目地址: 海豚搜索 www.haiteem.com

注意,以上步骤只是大概的流程,如果详细展开,内容非常多,如果对搜索引擎感兴趣,可以交个朋友交流交流。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_37261785/article/details/108736057