通用搜索引擎和垂直搜索引擎的区别

文章转载自 258集团《拆掉互联网那堵墙》
1、我们知道,每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider根据预定的规则,对已知或未知的网页进行逐页抓取。一般的通用搜索引擎爬虫会顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。理论上讲,爬虫从一定范围的网页出发,就能搜集到绝大多数的网页。大部分的通用搜索引擎爬虫是由自己的机房中的大量服务器群组执行的,由预定的工作方式进行定时或不定时地派出爬虫去抓取网页。


     258商业搜索的爬虫则是分布式的云爬虫模式,没有大机房方式的爬虫服务器群组,只有少量的中央控制器,负责管理分布在全球各个普通的电脑爬虫客户端,爬虫根据258搜索预定的爬虫任务进行网页抓取,由系统预先进行网页类型判断,排除掉非企业网站或非法网站,然后根据企业网站的BR值进行各种不同频率的抓取。

通用搜索引擎抓取网页后,需要做大量的预处理工作。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等,我们叫通用搜索引擎的“网页预分析”。

     垂直搜索,除了要执行通用搜索引擎的“网页预分析”外,还需要将页面的信息进行更详细的分析,比如哪些是公司联系方式,哪些是产品信息参数,价格、原材料、品牌、重量、包装等等都要事先进行分析和索引,我们叫垂直搜索引擎的“信息预分析”。

    了解通用搜索引擎和垂直搜索引擎的区别,主要要掌握垂直搜索引擎是搜索“信息”,而通用搜索引擎是搜索“关键词”,这样能更加深入的理解搜索引擎爬虫和权重排序的相关要点,以便更容易理解SEO的细节。
  

猜你喜欢

转载自kbyxb.iteye.com/blog/2057098