搜索引擎的实现原理

搜索引擎的实现原理

2006年11月15日 10:43:00  阅读数:798 标签: 搜索引擎数据库全文检索网络互联网服务器

全文检索搜索引擎的实现原理如下:首先从互联网上抓取包含用户查询内容的网页,然后建立自己的索引数据库,继续在自己的索引数据中搜索,最后对搜索到的结果进行处理和排序。

1)从互联网上抓取包含查询内容的网页。这项功能的关键技术就是网络蜘蛛程序,其是一个自动程序,可自动的在互联网中搜索信息。从其它网页内提取信息,就是利用网络蜘蛛程序,自动访问网络,并查看页面内容,然后从中找到相关信息,最后再从该页面的所有链接中出发,继续寻找相关的信息。网络蜘蛛不停的重复这个过程,并把爬过的所有网页收集到搜索引擎所在的服务器中,此过程一般情况下使用的是广度优先算法。

2)建立自己的索引数据库。网络蜘蛛储存网页后,再由自定义的程序,对服务器中保存的网页进行分析,提取相关网页的URL、编码类型、关键词位置、生成时间、大小、与其它网页的链接关系等,根据网站自定义的相关度算法进行运算,最后得到相关度信息,然后用这些相关信息建立网页索引数据库。

3)在索引数据库中搜索关键内容。当用户输入搜索内容,单击搜索按钮后,系统自定义的程序开始根据相关技术,分析用户的搜索内容,然后从网页索引数据库中,找到包含用户搜索内容的所有相关网页。

4)对搜索结果进行排序处理。在网站自己的索引库中,对网页中每个关键词都有记载,根据关键词的搜索次数,以及在网页中出现的次数等分析要素,对搜索到的结果进行排序,当然还可以自己定义排序处理程序。最后将处理好的结果通过表格的形式展现出来。

 

 

 本文经过阅览很多国外和国内的资料编写而成,如果造成侵权问题,请及时联系我,及时更改。

Lucene原理剖析

Lucene作为一个快速的检索框架,为中小型公司提供了一个快速接入搜索引擎的途径。其从创立之初,得到了开源社区的快速发展。其突出优势为快速的数据处理能力和TF-IDF的快速排序算法。本文从Lucene...

猜你喜欢

转载自blog.csdn.net/weixin_42858906/article/details/83216707