Python 开发简单爬虫 学习笔记1

一、课程介绍


二、爬虫简介以及爬虫价值

爬虫:一段自动抓取互联网信息的程序。

三、简单爬虫架构


动态运行流程


四、URL管理器和实现方法

1. URL管理器

URL管理器,管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

具有如下五个功能:

2.实现方式

有如下三种:

目前,由于缓存数据库的高性能,大公司一般采用缓存数据库来存储。个人或小型公司可以使用内存来存储。如果内存不够用,或者需要永久存储,可以采用关系数据库存储。

五、网页下载器和 urllib2 模块


猜你喜欢

转载自blog.csdn.net/buxizhizhou530/article/details/51569525