一、课程介绍
二、爬虫简介以及爬虫价值
爬虫:一段自动抓取互联网信息的程序。
三、简单爬虫架构
动态运行流程
四、URL管理器和实现方法
1. URL管理器
URL管理器,管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。
具有如下五个功能:
2.实现方式
有如下三种:
目前,由于缓存数据库的高性能,大公司一般采用缓存数据库来存储。个人或小型公司可以使用内存来存储。如果内存不够用,或者需要永久存储,可以采用关系数据库存储。
爬虫:一段自动抓取互联网信息的程序。
URL管理器,管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。
具有如下五个功能:
有如下三种:
目前,由于缓存数据库的高性能,大公司一般采用缓存数据库来存储。个人或小型公司可以使用内存来存储。如果内存不够用,或者需要永久存储,可以采用关系数据库存储。