python爬虫(三)URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合

-防止重复抓取,防止循环抓取.
假设我们有两个网页,这个网页有那个网页的URL链接,那个又有这个URL链接,这样就来回循环,形成死循环.所以我们要杜绝这样的事情发生.

步骤:
添加新URL到待抓取集合中—-判断待添加URL是否在容器中.
获取待抓取URL—-URL管理器判断是否还有待抓取URL,如果已抓取那就将URL移动到已抓取.

这里写图片描述

URL管理器实现方式:
1 内存.
python内存(放入set因为可以去重)
待爬取的URL集合:set()
已爬取的URL集合:set()
2 关系数据库
mysql
urls(url,is_crawled)第一个字段是url 第二个是 是否已经爬取过的状态
3 缓存数据库
redis
待爬取的URL集合:set
已爬取的URL集合:set

学习:慕课网.

猜你喜欢

转载自blog.csdn.net/qq_32230309/article/details/81112532