基本爬虫架构实现的豆瓣爬虫（五）: 爬虫调度器 - 代码天地

基本爬虫架构实现的豆瓣爬虫（五）: 爬虫调度器

其他 2018-12-19 15:34:15 阅读次数: 0

一、实现原理

爬虫调度器首先要做的是初始化各个模块，然后通过 crawl(start_url) 方法传入入口 URL，方法内部实现按照运行流程控制各个模块的工作。

二、代码如下

 1 from UrlManager import UrlManager
 2 from HtmlDownloader import HtmlDownloader
 3 from HtmlParser import HtmlParser
 4 from DataOutput import DataOutput
 5 
 6 
 7 class SpiderManager:
 8     def __init__(self):
 9         self.manager = UrlManager()
10         self.downloader = HtmlDownloader()
11         self.parser = HtmlParser()
12         self.output = DataOutput()
13 
14     def crawl(self, start_url):
15         """
16         负责调度其他爬虫模块
17         :param start_url: 起始 url
18         :return: None
19         """
20         self.manager.add_new_url(start_url)
21         while self.manager.has_new_url():
22             try:
23                 new_url = self.manager.get_new_url()
24                 html = self.downloader.download(new_url)
25                 new_urls, new_datas = self.parser.parser(start_url, html)
26                 self.manager.add_new_urls(new_urls)
27                 for data in new_datas:
28                     self.output.output_csv(data)
29             except Exception:
30                 print('爬取失败')
31         self.output.close_file()
32 
33 
34 if __name__ == '__main__':
35     sm = SpiderManager()
36     sm.crawl('https://movie.douban.com/top250?start=0')

猜你喜欢

转载自www.cnblogs.com/mxsf/p/10143539.html

基本爬虫架构实现的豆瓣爬虫（五）: 爬虫调度器

基本爬虫架构实现的豆瓣爬虫（三）: HTML 解析器

python爬虫调度器

豆瓣爬虫

分布式豆瓣爬虫（三）: 控制节点-控制调度器

爬虫实战—豆瓣图书爬虫

python爬虫实现豆瓣模拟登录

python爬虫豆瓣网的模拟登录实现

初探豆瓣爬虫

豆瓣书评爬虫

爬虫豆瓣电影

Python 爬虫-豆瓣读书

爬虫：模拟登录豆瓣

豆瓣影评爬虫

豆瓣电影爬虫+分析

爬虫豆瓣美女

豆瓣上映电影爬虫

Python 豆瓣爬虫

豆瓣电影爬虫

Python爬虫——豆瓣读书

PHP编写豆瓣爬虫

python豆瓣电影爬虫

豆瓣电影爬虫练习

【爬虫】总结-豆瓣电影

golang实现并发爬虫三(用队列调度器实现）

爬虫调度的框架-小记录

爬虫实现股票分析（五）

初试python爬虫之：豆瓣电影爬虫

【爬虫】豆瓣影评爬虫使用教程

爬虫的基本

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)