什么是搜索引擎?

  搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。

  搜索引擎的主要组成是通用爬虫。

  通用爬虫:是指将网页整体从网络上爬取下来的程序。

  搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!

  网页网址的来源主要有三种:(1)新网站的主动向搜索引擎提交网址

             (2)网站上面的链接

             (3)和DNS域名解析商合作,每当有新网站注册,搜索引擎就可以获得网址

  搜索引擎的步骤:(1)抓取网页:抓取网页的过程中会有一个去重操作,网页中重复内容过多,搜索引擎可能不会保存

          (2)预处理:提取出文字,中文分词,去除噪音(广告栏、导航栏、版权等文字),建立索引

          (3)排版:设置排名,根据用户索引提供服务

  通用爬虫的缺点:(1)只能整页整页的抓取,九成以上的数据是无用数据

          (2)无法满足不同职业不同人员的需求

          (3)无法爬取视频图片等数据

          (4)无法根据释义判断,只能根据关键字索引

  聚焦爬虫:在爬取数据时会根据需求进行筛选,尽量保证抓取相关的数据。    

  

  

猜你喜欢

转载自www.cnblogs.com/bug-king/p/11953565.html