聚焦爬虫与通用爬虫详解

根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.

通用爬虫

通用爬虫:搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

目标:

就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。

抓取流程:

  1. 首先选取一部分URL,把这些URL放到待爬取队列。

  2. 从队列取出URL,然后解析DNS得到主机IP,然后保存这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本级服务器,之后把这个爬过的url放入已爬过的队列。

  3. 分析这些网页内容,找出网页里其他的URL链接,继续执行第二步,直到爬取结束

搜索引擎如何获取一个新网站的URL:

a)主动向搜索引擎提交网站 
B)在其他网站里设置外联 
C)索引擎会和DNS服务商服务商进行合作,可以快速收录新的网站

DNS把域名解析成IP的一种技术。

通用爬虫并不是万物皆可爬取,他也要遵循规则:

Robots协议:协议会指明通用爬虫可以爬取网页的权限(告诉搜索引擎那些可以抓取,那些不可以抓取)

Robots.txt 并不是所有的爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守

存在位置:robots.txt文件应该放置在网站根目录下

例如:https://www.taobao.com/robots.txt

通用爬虫工作流程:

爬取网页 存储数据 内容处理 提供检索/排名服务

搜索引擎排名:

  1. PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站排名越靠前。

  2. 竞价排名:谁给的钱多,谁排名就高。

通用爬虫的缺点:

  1. 只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)

  2. 提供的结果千篇一律,不等针对不同背景领域的人提供不同的搜索结果

  3. 不能提供人类语义上的检索

通用搜索引擎的局限性

    1. 通用搜索引擎所返回的网页里90%的内容无用。

    2. 中文搜索引擎自然语言检索理解困难

    3. 信息占有量和覆盖率存在局限。

    4. 搜索引擎最主要的还是以关键字搜索为主,对于图片、数据库、音频、视频多媒体的内容通用搜索引擎无能为力。

    5. 搜索引擎的社区化和个性化不好,大多数搜索引擎没有考虑人的地域,性别,年龄的差别

    6. 搜索引擎抓取动态网页效果不好

      解决通用爬虫的缺点,聚焦爬虫出现了。

聚焦爬虫

聚焦爬虫:爬虫程序员写的针对某种内容爬虫。 
面向主题爬虫、面向需求爬虫:会针对某种特定的能容去爬取信息,而且保证内容需求尽可能相关。

1.积累式爬虫:从开始到结束,不断爬取,过程中会进行重复操作。

2.增量式爬虫:已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页爬虫

3.Deep web爬虫:不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的web页面

而我们今后要学习的网络爬虫,就是聚焦爬虫。


猜你喜欢

转载自blog.csdn.net/master_ning/article/details/80877668
今日推荐